*://"
输出
['http://', 'https://']
2.比方说我们有这么一个字符串"cat hat mat qat",你会发现前面三个是实际的单词,最后那个是我胡编乱造的(上百度查完是昆士兰英语学院的缩写= =)。如果你本来就知道"at"前面是c、h、m其中之一时这才构成单词,你想把这样的匹配出来。根据已经学到的知识是不是会想到写出来三个正则表达式进行匹配?实际上不需要。因为有一种多字符匹方式
[]
代表匹配里面的字符中的任意一个
还是举个栗子,我们发现啊,有的程序员比较过分,,在<html></html>
这对标签上,大小写混用,老害得我们抓不到想要的东西,我们该怎么应对?是写16*16种正则表达式挨个匹配?no
import re key = r"lalala<hTml>hello</Html>heiheihei" p1 = r"<[Hh][Tt][Mm][Ll]>.+?</[Hh][Tt][Mm][Ll]>" pattern1 = re.compile(p1) print pattern1.findall(key)
输出
[
我们既然有了范围性的匹配,自然有范围性的排除。
[^]
代表除了内部包含的字符以外都能匹配
还是cat,hat,mat,qat这个例子,我们想匹配除了qat以外的,那么就应该这么写:
import re key = r"mat cat hat pat" p1 = r"[^p]at"
输出
为了方便我们写简洁的正则表达式,它本身还提供下面这样的写法
[0-9] |
0123456789任意之一 |
[a-z] |
小写字母任意之一 |
[A-Z] |
大写字母任意之一 |
\d |
等同于[0-9] |
\D |
等同于[^0-9]匹配非数字 |
\w |
等同于[a-z0-9A-Z_]匹配大小写字母、数字和下划线 |
\W |
等同于[^a-z0-9A-Z_]等同于上一条取非 |
3.介绍到这里,我们可能已经掌握了大致的正则表达式的构造方式,但是我们常常会在实战中遇到一些匹配的不准确的问题。比方说:
import re key = r"chuxiuhong@hit.edu.cn" p1 = r"@.+\."
输出结果
['@hit.edu.']
呦呵!你咋能多了呢?我理想的结果是@hit.
,你咋还给我加量了呢?这是因为正则表达式默认是“贪婪”的,我们之前讲过,“+”代表是字符重复一次或多次。但是我们没有细说这个多次到底是多少次。所以它会尽可能“贪婪”地多给我们匹配字符,在这个例子里也就是匹配到最后一个“.”。
我们怎么解决这种问题呢?只要在“+”后面加一个“?”就好了。
import re key = r"chuxiuhong@hit.edu.cn" p1 = r"@.+?\."
输出结果
['@hit.']
加了一个“?”我们就将贪婪的“+”改成了懒惰的“+”。这对于[abc]+,\w*之类的同样适用。
小测验:上面那个例子可以不使用懒惰匹配,想一种方法得到同样的结果
**个人建议:在你使用"+","*"的时候,一定先想好到底是用贪婪型还是懒惰型,尤其是当你用到范围较大的项目上时,因为很有可能它就多匹配字符回来给你!!!**
为了能够准确的控制重复次数,正则表达式还提供
{a,b}(代表a<=匹配次数<=b)
还是举个栗子,我们有sas,saas,saaas,我们想要sas和saas,我们怎么处理呢?
import re key = r"saas and sas and saaas" p1 = r"sa{1,2}s" pattern1 = re.compile(p1) print pattern1.findall(key)
输出
['saas', 'sas']
如果你省略掉{1,2}中的2,那么就代表至少匹配一次,那么就等价于?
如果你省略掉{1,2}中的1,那么就代表至多匹配2次。
下面列举一些正则表达式里的元字符及其作用
. |
代表任意字符 |
| |
逻辑或操作符 |
[ ] |
匹配内部的任一字符或子表达式 |
[^] |
对字符集和取非 |
- |
定义一个区间 |
\ |
对下一字符取非(通常是普通变特殊,特殊变普通) |
* |
匹配前面的字符或者子表达式0次或多次 |
*? |
惰性匹配上一个 |
+ |
匹配前一个字符或子表达式一次或多次 |
+? |
惰性匹配上一个 |
? |
匹配前一个字符或子表达式0次或1次重复 |
{n} |
匹配前一个字符或子表达式 |
{m,n} |
匹配前一个字符或子表达式至少m次至多n次 |
{n,} |
匹配前一个字符或者子表达式至少n次 |
{n,}? |
前一个的惰性匹配 |
^ |
匹配字符串的开头 |
\A |
匹配字符串开头 |
$ |
匹配字符串结束 |
[\b] |
退格字符 |
\c |
匹配一个控制字符 |
\d |
匹配任意数字 |
\D |
匹配数字以外的字符 |
\t |
匹配制表符 |
\w |
匹配任意数字字母下划线 |
\W |
不匹配数字字母下划线
|
1.子表达式
子表达式的概念特别好理解。其实它就是将几个字符的组合形式看做一个大的“字符”。不好理解?举个栗子:我们要匹配类似IP地址这种形式的字符(暂且不考虑数值范围的合理性,这个留作学完之后的思考题吧)。形如192.168.1.1这样的地址我们怎么写表达式呢?
答案一 \d+.?\d+.?\d+.?\d+
不好,一个是太繁琐,另一个是连位数都控制不了
答案二 \d+{1,3}.?\d+{1,3}.?\d+{1,3}.?\d+{1,3}
一般般,复杂但是起码能把位数控制在合理范围
答案三 (\d+{1,3}\.){3}\d+{1,3}\.
利用子表达式,将123.
这种数字加小数点看做一个整体字符,对其规定重复匹配的次数,既简洁,效果又好。所以只要你将几个字符组合用圆括号括起来,那么你就可以把一个圆括号内的内容当做一个字符,外面可以加我们之前讲过的所有元字符来控制匹配。
2.向前向后查找
现在,我们终于来到了向前向后查找这一块。为什么