正则表达式 – 断言

正则表达式中的断言(Assertions)

断言(Assertions)是正则表达式中一类零宽度的匹配机制,它们只检查当前位置是否满足特定条件,不消耗任何字符,也不参与捕获。断言分为环视(Lookaround)条件断言两大类,是实现复杂逻辑匹配的核心工具。

1. 环视断言(Lookaround)

环视用于检查当前匹配位置的前方后方是否符合某个模式,常用于“前后条件限制”而不把条件部分包含在最终匹配结果中。

语法名称描述示例匹配说明
(?=pattern)正向前瞻(Positive Lookahead)当前位置后面必须紧跟 pattern/\w+(?=px)/匹配 “150px” 中的 “150”(后面必须是 px)
(?!pattern)负向前瞻(Negative Lookahead)当前位置后面不能匹配 pattern/\w+(?!px)/匹配 “150em” 中的 “150”(后面不是 px)
(?<=pattern)正向后瞻(Positive Lookbehind)当前位置前面必须紧跟 pattern/(?<=\$)\d+/匹配 “$100” 中的 “100”(前面必须是 $)
(?<!pattern)负向后瞻(Negative Lookbehind)当前位置前面不能匹配 pattern/(?<!\$)\d+/匹配 “100” 中的 “100”(前面不是 $)

2. 环视经典应用示例

场景正则表达式说明
匹配单位为 px 的数字(不包含单位)/\d+(?=px)/g“width: 200px; height: 100em;” → 匹配 “200”
匹配不以 http 开头的 URL/(?<!http:)\/\/\S+/匹配 “//example.com” 但不匹配 “http://example.com” 中的 //
密码复杂度:必须包含数字但不以数字开头/^(?!\d)[A-Za-z0-9]{8,}$/(?=\D*\d)/更复杂组合
替换千位分隔符(不改变原数字)/(?<=\d)(?=(\d{3})+(?!\d))/g“1234567890” → 在匹配位置插入 “,” → “1,234,567,890”
匹配成对引号内的内容(不包含引号)/(?<=[“"]).*?(?=[”"])/注意实际需处理转义,更复杂

3. 条件断言(Conditional Expressions)

部分正则引擎(如 PCRE、Perl、.NET、Python 的 regex 模块)支持条件判断:根据某个捕获组是否匹配成功来选择不同分支。

语法描述示例
(?(n)yes-pattern|no-pattern)如果第 n 个捕获组已匹配成功,则用 yes-pattern,否则用 no-pattern/^((\d{3})-)?\d{8}$(?(1)-|$)/(简化示例)
(?(<name>)yes|no)基于命名组更可读

注意:JavaScript 原生不支持条件断言,需用其他方式模拟。

4. 固定宽度与可变宽度限制

  • 正向后瞻和负向后瞻在许多引擎中要求后瞻内的模式长度固定(fixed-length)。
  • JavaScript、Python 的 re 模块不支持可变长度后瞻
  • 支持可变长度后瞻的引擎:.NET、Java、PCRE、Ruby 2+、Python 的第三方 regex 模块。

示例(JavaScript 不支持):

/(?<=.*\d).{3}/   // 可变长度后瞻,检查前面某处有数字

5. 实际高级应用场景

场景正则表达式用途
匹配重复但不相同的单词/\b(\w+)\b(?<!\1\s)\1\b/(需引擎支持)更常用分组+反向引用
验证密码强度(至少一种字符类型)/^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)[A-Za-z\d]{8,}$/多个正向前瞻组合
提取 URL 中的域名(不包含协议和路径)/(?<=https?:\/\/)[^\/\?]+/使用正向后瞻
匹配十六进制颜色值(支持 #FFF 和 #FFFFFF)/^#(?:[A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$/(不需断言)
或用断言扩展
常结合分支
去除 HTML 标签但保留内容/(?<=<[^>]*>)(.*?)(?=<[^>]*>)/(简化,实际更复杂)需小心 XSS

6. 支持情况对比

功能JavaScriptPython (re)Python (regex).NETJavaPCRE
正向前瞻支持支持支持支持支持支持
负向前瞻支持支持支持支持支持支持
正向后瞻支持(固定长度)支持(固定长度)支持(可变)支持(可变)支持(可变)支持(可变)
负向后瞻支持(固定长度)支持(固定长度)支持(可变)支持(可变)支持(可变)支持(可变)
条件断言不支持不支持支持支持支持支持

7. 注意事项

  • 断言是零宽度,不影响整体匹配位置和捕获结果。
  • 多重嵌套断言会显著增加复杂度与性能开销,建议尽量简化。
  • 调试复杂断言时,推荐使用支持可视化的工具(如 regex101.com,选择对应引擎)。
  • 某些场景可以用锚点 \b^$ 或分组替代简单断言。

断言是正则表达式中最“智能”的部分,掌握它后,你可以实现几乎任意复杂的条件匹配,而不污染匹配结果。它们在数据清洗、表单验证、日志解析等领域尤其强大!

如果你有特定语言环境或想解决的具体匹配问题(如密码规则、金额提取等),可以告诉我,我帮你写出最合适的断言表达式。

文章已创建 3511

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部