<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
match()方法從字串的起始位置開始匹配,該方法有兩個引數,第一個是正規表示式,第二個是需要匹配的字串;
re.match(正規表示式,字串)
如果該方法匹配成功,返回的是SRE_Match物件,如果未匹配到,則返回None。
返回成功後有兩個方法,group()方法用來檢視匹配到的字串,span()方法用來輸出匹配的範圍。
import re content = 'Hello_World,123 456' result = re.match('^Hellow{6}Wdddsd{3}',content) print(result) print(result.group()) print(result.span())
【執行結果】
<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)
子字串匹配
在上述我們匹配到了完整的字串,但是實際需求中可能只需要其中的一部分,這時我們僅需要在要獲取的子字串匹配時加上括號即可。
import re content = 'Hello_World,123 456' result = re.match('^Hellow{6}W(d+)s(d{3})',content) print(result) print(result.group()) print(result.span()) print(result.group(1)) print(result.group(2))
【執行結果】
<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)
123
456
這樣通過加括號的形式,將字串中的數位匹配出來。
通用匹配符
.* 其中.用來匹配任意字元(除換行符),*代表前面出現的字元無限次。因此之前的匹配形式可以寫為:
import re content = 'Hello_World,123 456' result = re.match('^Hello.*456$',content) print(result.group())
【執行結果】
Hello_World,123 456
貪婪匹配和非貪婪匹配
.*匹配是貪婪匹配
.*?是非貪婪匹配
二者的主要區別是,貪婪匹配儘可能多的去匹配字元,而非貪婪匹配是儘可能少的匹配字元。下列程式碼能夠更直觀的瞭解二者之間的區別
import re content = 'number 12345678 test' result_1 = re.match('^number.*(d+).*test$',content) print('貪婪匹配得到的數位:' + result_1.group(1)) result_2 = re.match('^number.*?(d+).*test$',content) print('非貪婪匹配得到的數位:' + result_2.group(1))
【執行結果】
貪婪匹配得到的數位:8
非貪婪匹配得到的數位:12345678
大家會有這樣一個疑問為什麼貪婪匹配得到的數位少,而非貪婪匹配得到的多,這與前面講的不太符合啊。
注意,在匹配的時候,貪婪匹配是儘可能多的去匹配字元,因此.*就匹配的是' 1234567‘,只留下8給d+匹配,非貪婪匹配是儘可能少的匹配字元,故.*?匹配的是' ',留下12345678給d+匹配,就會得到上述結果。
修飾符
修飾符 | 作用 |
---|---|
re.I | 忽略大小寫進行匹配 |
re.L | 做在地化識別匹配 |
re.M | 多行匹配,影響^和$ |
re.S | 使.匹配包含換行符在內的所有字元 |
re.U | 根據Unicode字元集解析字元 |
re.X | 更加靈活的編寫正規表示式 |
跳脫匹配
匹配特殊字元時,在其前面加反斜線()完成跳脫匹配。
在匹配時會掃描整個字串,然後返回第一個成功匹配的結果。如果將整個字串搜尋完了之後還是沒有匹配到,則返回None。
與search()不同的是,findall()方法是將返回所有符合正規表示式匹配的內容。返回結果是一個列表,列表中的每個元素都是元組型別。
修改文字內容,原理是對要修改的內容進行替換。
import re temp = "abcdef123ghi456" temp = re.sub("d+","",temp) print(temp)
【執行結果】
abcdefghi
sub()中的引數分析,第一個引數是正規表示式匹配要更改的內容,第二個引數是使用該引數內容進行替換,第三個引數是要更改的字串。
將正則字串編譯成正規表示式物件,以便在後面的匹配中進行復用。
到此這篇關於python網路爬蟲精解之正規表示式的使用說明的文章就介紹到這了,更多相關python 正規表示式內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45