wiki/什么是正则表达式.md at da345d7810c4ad4e238eeae5c37cb4623b2ec029

2022-01-23 01:04:54 +08:00

13 KiB

Raw Blame History

id	title	sidebar_position	data
什么是正则表达式	什么是正则表达式	1	2022年1月22日

正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子.

一个正则表达式是在一个主体字符串中从左到右匹配字符串时的一种样式. 例如"Regular expression"是一个完整的句子, 但我们常使用缩写的术语"regex"或"regexp". 正则表达式可以用来替换文本中的字符串,验证形式,提取字符串等等.

想象你正在写一个应用, 然后你想设定一个用户命名的规则, 让用户名包含字符,数字,下划线和连字符,以及限制字符的个数,好让名字看起来没那么丑. 我们使用以下正则表达式来验证一个用户名:

以上的正则表达式可以接受 john_doe, jo-hn_doe, john12_as. 但不匹配Jo, 因为它包含了大写的字母而且太短了.

1. 基本匹配

正则表达式其实就是在执行搜索时的格式, 它由一些字母和数字组合而成. 例如: 一个正则表达式 the, 它表示一个规则: 由字母t开始,接着是h,再接着是e.

"the" => The fat cat sat on the mat.

元字符	描述
.	句号匹配任意单个字符除了换行符.
[ ]	字符种类. 匹配方括号内的任意字符.
[^ ]	否定的字符种类. 匹配除了方括号里的任意字符
*	匹配>=0个重复的在*号之前的字符.
+	匹配>1个重复的+号前的字符.
?	标记?之前的字符为可选.
{n,m}	匹配num个中括号之前的字符 (n <= num <= m).
(xyz)	字符集, 匹配与 xyz 完全相等的字符串.
\|	或运算符,匹配符号前或后的字符.
\	转义字符,用于匹配一些保留的字符 `[ ] ( ) { } . * + ? ^ $ \ \|`
^	从开始行开始匹配.
$	从末端开始匹配.

简写	描述
.	除换行符外的所有字符
\w	匹配所有字母数字, 等同于 `[a-zA-Z0-9_]`
\W	匹配所有非字母数字, 即符号, 等同于: `[^\w]`
\d	匹配数字: `[0-9]`
\D	匹配非数字: `[^\d]`
\s	匹配所有空格字符, 等同于: `[\t\n\f\r\p{Z}]`
\S	匹配所有非空格字符: `[^\s]`

符号	描述
?=	前置约束-存在
?!	前置约束-排除
?<=	后置约束-存在
?<!	后置约束-排除

标志	描述
i	忽略大小写.
g	全局搜索.
m	多行的: 锚点元字符 `^` `$` 工作范围在每行的起始.

13 KiB Raw Blame History

1. 基本匹配

2. 元字符

2.1 点运算符 .

2.2 字符集

2.2.1 否定字符集

2.3 重复次数

2.3.1 * 号

2.3.2 + 号

2.3.3 ? 号

2.4 {} 号

2.5 (...) 特征标群

2.6 | 或运算符

2.7 转码特殊字符

2.8 锚点

2.8.1 ^ 号

2.8.2 $ 号

3. 简写字符集

4. 前后关联约束(前后预查)

4.1 ?=... 前置约束(存在)

4.2 ?!... 前置约束-排除

4.3 ?<= ... 后置约束-存在

4.4 ?<!... 后置约束-排除

5. 标志

5.1 忽略大小写 (Case Insensitive)

5.2 全局搜索 (Global search)

5.3 多行修饰符 (Multiline)

贡献

许可证

13 KiB

Raw Blame History

2.1 点运算符 `.`

2.3.1 `*` 号

2.3.2 `+` 号

2.3.3 `?` 号

2.4 `{}` 号

2.5 `(...)` 特征标群

2.6 `|` 或运算符

2.8.1 `^` 号

2.8.2 `$` 号

4.1 `?=...` 前置约束(存在)

4.2 `?!...` 前置约束-排除

4.3 `?<= ...` 后置约束-存在

4.4 `?<!...` 后置约束-排除