3.3 正則表達式 · python3爬蟲筆記

# 3.3 正則表達式 ## 1.相關鏈接及說明 * 開源中國提供的正則表達式測試工具：[http://tool.oschina.net/regex/](http://tool.oschina.net/regex/) 匹配規則： | 模式 | 描述 | | :--- | :--- | | `\w` | 匹配字母數字及下劃線 | | `\W` | 匹配非字母數字及下劃線 | | `\s` | 匹配任意空白字符，等價于 \[\t\n\r\f\]. | | `\S` | 匹配任意非空字符 | | `\d` | 匹配任意數字，等價于 \[0-9\] | | `\D` | 匹配任意非數字 | | `\A` | 匹配字符串開始 | | `\Z` | 匹配字符串結束，如果是存在換行，只匹配到換行前的結束字符串 | | `\z` | 匹配字符串結束 | | `\G` | 匹配最后匹配完成的位置 | | `\n` | 匹配一個換行符 | | `\t` | 匹配一個制表符 | | `^` | 匹配字符串的開頭 | | `$` | 匹配字符串的末尾 | | `.` | 匹配任意字符，除了換行符，當 re.DOTALL 標記被指定時，則可以匹配包括換行符的任意字符 | | `[...]` | 用來表示一組字符，單獨列出：\[amk\] 匹配 'a'，'m' 或 'k' | | `[^...]` | 不在 \[\] 中的字符：[abc](https://germey.gitbooks.io/python3webspider/content/3.3-正則表達式.html#fn_abc)匹配除了 a,b,c 之外的字符。 | | `*` | 匹配 0 個或多個的表達式。 | | `+` | 匹配 1 個或多個的表達式。 | | `?` | 匹配 0 個或 1 個由前面的正則表達式定義的片段，非貪婪方式 | | `{n}` | 精確匹配 n 個前面表達式。 | | `{n, m}` | 匹配 n 到 m 次由前面的正則表達式定義的片段，貪婪方式 | | a\|b | 匹配a或b | | `( )` | 匹配括號內的表達式，也表示一個組 | ## 2.re庫 Python 的 re 庫提供了整個正則表達式的實現 ## 3. match {#3-match} 語法:match$pattern, string, flags=0$ match 方法會嘗試從字符串的起始位置匹配正則表達式，如果匹配，就返回匹配成功的結果，如果不匹配，那就返回 None 實例: ```text import re content = 'Hello 123 4567 World_This is a Regex Demo' print(len(content)) # \s:空格 # \w:字母及數字、下劃線 result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content) print(result) print(result.group()) print(result.span()) ``` 運行結果: ```text 41 <_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'> Hello 123 4567 World_This (0, 25) ``` * group方法:輸出匹配到的內容 * span方法:輸出匹配到的范圍 ### 匹配目標 {#匹配目標} match 方法可以得到匹配到的字符串內容，如何從字符串中提取一部分內容在這里可以使用  括號來將我們想提取的子字符串括起來， 實際上就是標記了一個子表達式的開始和結束位置，被標記的每個子表達式會依次對應每一個分組，我們可以調用 group 方法傳入分組的索引即可獲取提取的結果實例: ```text import re content = 'Hello 1234567 World_This is a Regex Demo' result = re.match('^Hello\s(\d+)\sWorld', content) print(result) print(result.group()) print(result.group(1)) print(result.span()) ``` 運行結果: ```text <_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'> Hello 1234567 World 1234567 (0, 19) ``` group 會輸出完整的匹配結果，group$1$ 會輸出第一個被  包圍的匹配結果，假如正則表達式后面還有  包括的內容，那么我們可以依次用 group$2$、group$3$ 等來依次獲取 ### 通用匹配 {#通用匹配} .$星$：匹配任意字符實例: ```text import re content = 'Hello 123 4567 World_This is a Regex Demo' result = re.match('^Hello.*Demo$', content) print(result) print(result.group()) print(result.span()) ``` 運行結果： ```text <_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'> Hello 123 4567 World_This is a Regex Demo (0, 41) ``` ### 貪婪與非貪婪 {#貪婪與非貪婪} 貪婪匹配下，.\* 會匹配盡可能多的字符非貪婪匹配的寫法是 .\*?，盡可能匹配少的字符 ```text import re # 貪婪 content = 'Hello 123456789 World' result = re.match('^Hello.*(\d+).*World$', content) print(result) print(result.group(1)) # 非貪婪 result = re.match('^Hello.*?(\d+).*World$', content) print(result) print(result.group(1)) ``` ```text 運行結果: <_sre.SRE_Match object; span=(0, 21), match='Hello 123456789 World'> 9 <_sre.SRE_Match object; span=(0, 21), match='Hello 123456789 World'> 123456789 ``` ### 修飾符 {#修飾符} 修飾符解釋 | 修飾符 | 描述 | | :--- | :--- | | re.I | 使匹配對大小寫不敏感 | | re.L | 做本地化識別（locale-aware）匹配 | | re.M | 多行匹配，影響 ^ 和 $ | | re.S | 使 . 匹配包括換行在內的所有字符 | | re.U | 根據Unicode字符集解析字符。這個標志影響 \w, \W, \b, \B. | | re.X | 該標志通過給予你更靈活的格式以便你將正則表達式寫得更易于理解。 | 實例: ```text import re content = '''Hello 1234567 World_This is a Regex Demo ''' result = re.match('^He.*?(\d+).*?Demo$', content,re.S) print(result.group(1)) ``` 運行結果: ```text 1234567 ``` 如果沒有re.S的話，會報錯，因為沒有找到數據，不能進行分組 ### 轉義匹配 {#轉義匹配} . 可以用 . 來匹配實例: ```text import re content = '(百度)www.baidu.com' result = re.match('$百度$www\.baidu\.com', content) print(result) ``` ## 4. search {#4-search} match 方法是從字符串的開頭開始匹配，一旦開頭不匹配，那么整個匹配就失敗了實例: ```text import re content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings' result = re.match('Hello.*?(\d+).*?Demo', content) print(result) ``` 運行結果: ```text None ``` 這時應該使用search，它在匹配時會掃描整個字符串，然后返回第一個成功匹配的結果實例: HTML文本 ```text html = '''<div id="songs-list"> <h2 class="title">經典老歌</h2> <p class="introduction"> 經典老歌列表 </p> <ul id="list" class="list-group"> <li data-view="2">一路上有你</li> <li data-view="7"> <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a> </li> <li data-view="4" class="active"> <a href="/3.mp3" singer="齊秦">往事隨風</a> </li> <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> <li data-view="5"> <a href="/6.mp3" singer="鄧麗君">但愿人長久</a> </li> </ul> </div>''' ``` 嘗試需要提取歌手名以及歌名，寫出正則表達式: ```text <li.*?a.*?singer="(.*?)">(.*?)</a> ``` 代碼如下: ```text pattern = '<li.*?a.*?singer="(.*?)">(.*?)</a>' # re.S:能讓.匹配轉行 result = re.search(pattern,html,re.S) if result: print(result.group(1),result.group(2)) ``` ## 5. findall {#5-findall} search 方法的用法，它可以返回匹配正則表達式的第一個內容如果想要獲取匹配正則表達式的所有內容的就需要借助于 findall 方法 findall 方法會搜索整個字符串然后返回匹配正則表達式的所有內容實例: ```text pattern = '<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>' results = re.findall(pattern,html,re.S) print(results) print(type(results)) for result in results: print(result) print(result[0],result[1],result[2]) ``` 運行結果: ```text [('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但愿人長久')] <class 'list'> ('/2.mp3', '任賢齊', '滄海一聲笑') /2.mp3 任賢齊滄海一聲笑 ('/3.mp3', '齊秦', '往事隨風') /3.mp3 齊秦往事隨風 ('/4.mp3', 'beyond', '光輝歲月') /4.mp3 beyond 光輝歲月 ('/5.mp3', '陳慧琳', '記事本') /5.mp3 陳慧琳記事本 ('/6.mp3', '鄧麗君', '但愿人長久') /6.mp3 鄧麗君但愿人長久 ``` ## 6. sub {#6-sub} sub方法可以替換文本中內容，替換成想要替換的新的內容實例: ```text import re content = 'Hello123World' pattern = '\d+' print("原內容:"+content) content = re.sub(pattern,'',content) print("新內容:"+content) ``` 運行結果: ```text 原內容:Hello123World 新內容:HelloWorld ``` 第一個參數傳入 \d+ 來匹配所有的數字，然后第二個參數是替換成的字符串，要去掉的話就可以賦值為空，第三個參數就是原字符串，得到的結果就是替換修改之后的內容 ## 7. compile {#7-compile} compile 給正則表達式做了一層封裝，以便于在后面的匹配中復用實例: ```text import re content1 = '2018-7-15 12:00' content2 = '2018-7-17 12:55' content3 = '2018-7-22 13:21' pattern = re.compile('\d{2}:\d{2}') content1 = re.sub(pattern,'',content1) content2= re.sub(pattern,'',content2) content3 = re.sub(pattern,'',content3) print(content1,content2,content3,sep='\n') ``` 運行結果: ```text 2018-7-15 2018-7-17 2018-7-22 ```