正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种: 用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。
描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合
某个条件的子串等。
由普通字符(a-z)以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索
的字符串进行匹配。
用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。也就是说正则表达式就是记
录文本规则的代码。
用一个字符串来描述一个特征,然后去验证另一个字符串是否符合这个特征。 以上这些定义其实也就是正则表达式的作用。
第二章 正则表达式基础理论
这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论: 元字符 字符串 字符转义 反义 限定符 替换 分组 反向引用 零宽度断言 匹配选项 注释 优先级顺序 递归匹配
2.1 元字符
在正则表达式中,元字符(Metacharacter)是一类非常特殊的字符,它能够匹配一个位置或字符集合中的一个字符,如:、 \\w等。根据功能,元字符可以分为两种类型:匹配位置的元字符和匹配字符的元字符。
2.1.1 匹配位置的元字符
包括:^、$、和\\b。其中^(脱字符号)和$(美元符号)都匹配一个位置,分别匹配行的开始和结尾。比如,^string匹配以string开头的行,string$匹配以string结尾的行。^string$匹配以string开始和结尾的行。单个$匹配一个空行。单个^匹配任意行。\\b匹配单词的开始和结尾,如:\\bstr匹配以str开始的单词,但\\b不匹配空格、标点符号或换行符号,所以,\\bstr可以匹配string、string fomat等单词。\\bstr正则表达式匹配的字符串必须以str开头,并且str以前是单词
的分界处,但此正则表达式不能限定str之后的字符串形式。以下正则表达式匹配以ing结尾的字符串,如string、This is a string等 Ing\\b 正则表达式ing\\b匹配的字符串必须以ing结尾,并且ing后是分界符,以下正则表达式匹配一个完整的单词:\\bstring\\b 。2.1.2 匹配字符的元字符 匹配字符的元字符有7个:.(点号)、\\w、\\W、、s\\、\\S、\\d和\\D。其中点号匹配除换行之外的任意字符;\\w匹配单词字符(包括字母、汉字、下划线和数字);\\W匹配任意非单词字符、\\s匹配任意的空白字符,如空格、制表符、换行等;\\S匹配任意的非空白字符;\\d匹配任意数字字符;\\D匹配任意的非数字字符。如: ^.$匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。 ^\\w$匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。 \\ba\\w\\w\\w\\w\\w\\w\\\\b匹配以字母a开头长度等于7的任意单词 \\ba\\w\\w\\w\\d\\d\\d\\D\\b匹配以字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词 2.2 字符类 字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。字符类可以在[](方括号)中定义。如: [012345]可以匹配数字0到5中的任意一个。 分组又称为子表达式,即把一个正则表达式的全部或部分分成一个或多个组。其中分组使用圆括号(),分组后把圆括号中的表达式看做一个整体来处理,比如:(abc){1,2}表示abc出现一次或两次的字符串,其中把abc看做一个整体来进行匹配。 2.8 后向引用 当一个正则表达式被分组后,每一个组将自动被赋予一个组号,该组号可以代表该组的表达式。其中,组号的编制规则为:从左到右,以分组的左括号为标志,第一个组号为1,第二个分组号为2,以此类推。如:(A?(B?(C?)))将产生3个组号,第一组为:(A?(B?(C?)));第二组为: (B?(C?));第三组为:(C?)。 反向引用提供了查找重复字符组的方便方法,反向引用可以使用数字命名(默认名称)的组号,也可以使用指定命名的组号。比如:\\b(\\w)\\1\\b匹配两个字符一样的单词,此表达式和\\b(\\w)\\w\\b不一样,后者两个字符可以不一样。再看,\\b(\\w)(\\d)\\1\\2\\b,匹配一个字符和一个数字然后重复字符和数字。\\b\\w*(\\w+)\\1\\b匹配以至少两个字符一样结尾的单词。\\b(\\w+)\\b\\s+\\1\\b此正则表达式匹配的具体过程如下: a. 表达式\\b(\\w+)\\b匹配一个单词并且单词的长度至少为1 b. 表达式\\s+匹配一个或多个空白字符 c. 表达式\\1将重复子表达式(\\w+)匹配的内容,及匹配重复的单词 d. 匹配单词的结束位置。 分组不仅可以使用数字作为组号,还可以使用自定义名称作为组号。以下两个正则表达式都是将分组后的子表达式\\w+命名为word. (? (?<=expression)又称为零宽度正回顾后发断言,它断言自身位置的后面能够匹配表达式expression,以下正则表达式匹配以an开头的单词的后面部分,即匹配单词除了字符串an之外的部分:(?<=\\ban)\\w+\\b 2.10 负向零宽度断言 零宽度断言只能指定或匹配一个位置,而负向零宽度断言与零宽度断言正好相反,它能指定或匹配不是一个位置,即所说的反义。特别是在匹配字符串中不包含指定的字符时,负向零宽度断言特别有用,比如要匹配断言字符a之后不能是字符b的表达式为: \\b\\w*a(?!b)\\w*\\b 因此该表达式匹配一个单词,并且这个包含字符a并且a后面不是紧随着b 表达式(?!expression)称为负向零宽度断言,它断言自身位置后不能包含expression。以下正则表达式匹配一个z字符串,字符串前三位为字符并且后边不是紧随着数字:\\b\\w{3} (?!\\d+);表达式(?2.12 递归匹配 递归匹配在匹配具有嵌套结构的字符串时特别有效。比如算术表达式((1+2)*(3+4))具有嵌套结构,如果要使用正则表达式检查该表达式是否正确,则可以使用递归匹配解决该问题。 这里介绍的平衡组语法是由.Net Framework支持的;其它语言/库不一定支持这种功能,或者支持此功能但需要使用不同的语法。 有时我们需要匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构,这时简单地使用\\(.+\\)则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式,懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等,比如( 5 / ( 3 + 2 ) ) ),那我们的匹配结果里两者的个数也不会相等。有没有办法在这样的字符串里匹配到最长的,配对的括号之间的内容呢? 为了避免(和\\(把你的大脑彻底搞糊涂,我们还是用尖括号代替圆括号吧。现在我们的问题变成了如何把xx (?'group') 把捕获的内容命名为group,并压入堆栈(Stack) (?'-group') 从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本分组的匹配失败 (?(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话,继续匹配yes部分的表达式,否则继续匹配no部分 (?!) 零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败 如果你不是一个程序员(或者你自称程序员但是不知道堆栈是什么东西),你就这样理解上面的三种语法吧:第一个就是在黑板上写一个\"group\",第二个就是从黑板上擦掉一个\"group\",第三个就是看黑板上写的还有没有\"group\",如果有就继续匹配yes部分,否则就匹配no部分。 我们需要做的是每碰到了左括号,就在压入一个\"Open\每碰到一个右括号,就弹出一个,到了最后就看看堆栈是否为空--如果不为空那就证明左括号比右括号多,那匹配就应该失败。正则表达式引擎会进行回溯(放弃最前面或最后面的一些字符),尽量使整个表达式得到匹配。 < #最外层的左括号 [^<>]* #最外层的左括号后面的不是括号的内容 ( ( (?'Open'<) #碰到了左括号,在黑板上写一个\"Open\" [^<>]* #匹配左括号后面的不是括号的内容 )+ ( (?'-Open'>) #碰到了右括号,擦掉一个\"Open\" [^<>]* #匹配右括号后面不是括号的内容 )+ )* (?(Open)(?!)) #在遇到最外层的右括号前面,判断黑板上还有没有没擦掉的\"Open\";如果还有,则匹配失败 > #最外层的右括号 平衡组的一个最常见的应用就是匹配HTML,下面这个例子可以匹配嵌套的 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务