2.2 熟知熟用正則 · Python3 爬蟲實戰

## **熟知熟用正則** <br> 導語：正則在我們的生活中扮演重要的角色，通過2.1章節，我們對正則有了基本的了解，接下來我們將要全面的嘗試使用正則。 ### **1.re模塊** 正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。Python 自1.5版本起增加了re 模塊，它提供 Perl 風格的正則表達式模式。re 模塊使 Python 語言擁有全部的正則表達式功能。<br> 由于Python的字符串本身也用`\`轉義，所以要特別注意： ~~~ s = 'ABC\\-001' # Python的字符串 # 對應的正則表達式字符串變成： # 'ABC\-001' ~~~ 因此建議使用Python的`r`前綴，就不用考慮轉義的問題了： ~~~ s = r'ABC\-001' # Python的字符串 # 對應的正則表達式字符串不變： # 'ABC\-001' ~~~ <hr> ### **2.正則表達式模式** | 模式 | 描述 | | --- | --- | | \w | 匹配字母數字及下劃線 | | \W | 匹配非字母數字下劃線 | | \s | 匹配任意空白字符，等價于 [\t\n\r\f]. | | \S | 匹配任意非空字符 | | \d | 匹配任意數字，等價于 [0-9] | | \D | 匹配任意非數字 | | \A | 匹配字符串開始 | | \Z | 匹配字符串結束，如果是存在換行，只匹配到換行前的結束字符串 | | \z | 匹配字符串結束 | | \G | 匹配最后匹配完成的位置 | | \n | 匹配一個換行符 | | \t | 匹配一個制表符 | | ^ | 匹配字符串的開頭 | | $ | 匹配字符串的末尾。 | | . | 匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字符。 | | […] | 用來表示一組字符,單獨列出：[amk] 匹配 ‘a’，‘m’或’k’ | | [^…] | 不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。 | | * | 匹配0個或多個的表達式。 | | + | 匹配1個或多個的表達式。 | | ? | 匹配0個或1個由前面的正則表達式定義的片段，非貪婪方式 | | {n} | 精確匹配n個前面表達式。 | | {n, m} | 匹配 n 到 m 次由前面的正則表達式定義的片段，貪婪方式 | | a\|b | 匹配a或b | | ( ) | 匹配括號內的表達式，也表示一個組 | <hr> ### **3.正則表達式修飾符 - 可選標志** 正則表達式可以包含一些可選標志修飾符來控制匹配的模式。修飾符被指定為一個可選的標志。多個標志可以通過按位 OR(|) 它們來指定。如 re.I | re.M 被設置成 I 和 M 標志： | 修飾符 | 描述 | | --- | --- | | re.I | 使匹配對大小寫不敏感 | | re.L | 做本地化識別（locale-aware）匹配 | | re.M | 多行匹配，影響 ^ 和 $ | | re.S | 使 . 匹配包括換行在內的所有字符 | | re.U | 根據Unicode字符集解析字符。這個標志影響 \\w, \\W, \\b, \\B. | | re.X | 該標志通過給予你更靈活的格式以便你將正則表達式寫得更易于理解。 | <hr> ### **4.學習正則表達式模式** 正則表達式是用字符串表示的，所以，我們要首先了解如何用字符來描述字符。在正則表達式中，如果直接給出字符，就是精確匹配。使用特殊符號表示字符：用`\d`可以匹配一個數字，`\w`可以匹配一個字母或數字，例如： - `'00\d'`可以匹配`'007'`，但無法匹配`'00A'`； - `'\d\d\d'`可以匹配`'010'`； - `'\w\w\d'`可以匹配`'py3'。` `'.'`可以匹配任意字符，所以： - `'py.'`可以匹配`'pyc'`、`'py3'`、`'py!'`等等。要匹配變長的字符，在正則表達式中，用`*`表示任意個字符（包括0個），用`+`表示至少一個字符，用`?`表示0個或1個字符，用`{n}`表示n個字符，用`{n,m}`表示n-m個字符。來看一個復雜的例子：`\d{3}\s+\d{3,8}`。我們來從左到右解讀一下： - `\d{3}`表示匹配3個數字，例如`'010'`； - `\s`可以匹配一個空格（也包括Tab等空白符），所以`\s+`表示至少有一個空格，例如匹配`' '`，`' '`等； - `\d{3,8}`表示3-8個數字，例如`'1234567'`。綜合起來，上面的正則表達式可以匹配以任意個空格隔開的帶區號的電話號碼。如果要匹配`'010-12345'`這樣的號碼呢？由于`'-'`是特殊字符，在正則表達式中，要用`'\'`轉義，所以，上面的正則是`\d{3}\-\d{3,8}`。但是，仍然無法匹配`'010 - 12345'`，因為帶有空格。所以我們需要更復雜的匹配方式。 <hr> ### **5.進階** 要做更精確地匹配，可以用`[]`表示范圍，比如： * `[0-9a-zA-Z\_]`可以匹配一個數字、字母或者下劃線； * `[0-9a-zA-Z\_]+`可以匹配至少由一個數字、字母或者下劃線組成的字符串，比如`'a100'`，`'0_Z'`，`'Py3000'`等等； * `[a-zA-Z\_][0-9a-zA-Z\_]*`可以匹配由字母或下劃線開頭，后接任意個由一個數字、字母或者下劃線組成的字符串，也就是Python合法的變量； * `[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}`更精確地限制了變量的長度是1-20個字符（前面1個字符+后面最多19個字符）。 `A|B`可以匹配A或B，所以`(P|p)ython`可以匹配`'Python'`或者`'python'`。 `^`表示行的開頭，`^\d`表示必須以數字開頭。 `$`表示行的結束，`\d$`表示必須以數字結束。 `py`也可以匹配`'python'`，但是加上`^py$`就變成了整行匹配，就只能匹配`'py'`了。 <hr> ### **6.re模常用方法** **1.re.match()** re.match 嘗試從字符串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。 **函數語法**： ~~~ re.match(pattern, string, flags=0) ~~~ **函數參數說明：** | 參數 | 描述 | | --- | --- | | pattern | 匹配的正則表達式 | | string | 要匹配的字符串。 | | flags | 標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。參見上方可選標志表格 | 實例： ~~~ import re print(re.match('www','www.baidu.com').span()) print(re.match('baidu','www.baidu.com')) ~~~ 輸出： ~~~ (0, 3) None ~~~ **2.re.search()** re.search 掃描整個字符串并返回第一個成功的匹配。函數語法： ~~~ re.search(pattern, string, flags=0) ~~~ 函數參數說明： | 參數 | 描述 | | --- | --- | | pattern | 匹配的正則表達式 | | string | 要匹配的字符串。 | | flags | 標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。參見上方可選標志表格 | 匹配成功re.search方法返回一個匹配的對象，否則返回None。實例： ~~~ import re print(re.search('www','www.baidu.com')) print(re.search('baidu','www.baidu.com')) ~~~ 輸出： ~~~ <_sre.SRE_Match object; span=(0, 3), match='www'> <_sre.SRE_Match object; span=(4, 9), match='baidu'> ~~~ **3.compile 函數** compile 函數用于編譯正則表達式，生成一個正則表達式（ Pattern ）對象，供 match() 和 search() 這兩個函數使用。提前編譯可減少多次正則匹配的運行時間語法格式為： ~~~ re.compile(pattern[, flags]) ~~~ 參數： * pattern : 一個字符串形式的正則表達式 * flags 可選，表示匹配模式 **4.re.findall()** 在字符串中找到正則表達式所匹配的所有子串，并返回一個列表，如果沒有找到匹配的，則返回空列表。 **注意：**?match 和 search 是匹配一次 findall 匹配所有。語法格式為： ~~~ re.findall(string, pos, endpos) ~~~ 參數： * string?待匹配的字符串。 * pos?可選參數，指定字符串的起始位置，默認為 0。 * endpos?可選參數，指定字符串的結束位置，默認為字符串的長度。 **5.re.split** split 方法按照能夠匹配的子串將字符串分割后返回列表，它的使用形式如下： ~~~ re.split(pattern, string[, maxsplit=0, flags=0]) ~~~ 參數： | 參數 | 描述 | | --- | --- | | pattern | 匹配的正則表達式 | | string | 要匹配的字符串。 | | maxsplit | 分隔次數，maxsplit=1 分隔一次，默認為 0，不限制次數。 | | flags | 標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。參見上方可選標志表格 | 實例：用正則表達式切分字符串比用固定的字符更靈活，請看正常的切分代碼： ~~~ >>> 'a b c'.split(' ') ['a', 'b', '', '', 'c'] ~~~ 發現無法識別連續的空格，用正則表達式試試： ~~~ >>> re.split(r'\s+', 'a b c') ['a', 'b', 'c'] ~~~ 無論多少個空格都可以正常分割。加入`,`試試： ~~~ >>> re.split(r'[\s\,]+', 'a,b, c d') ['a', 'b', 'c', 'd'] ~~~ 再加入`;`試試： ~~~ >>> re.split(r'[\s\,\;]+', 'a,b;; c d') ['a', 'b', 'c', 'd'] ~~~ **6.groups()** 我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。 | 匹配對象方法 | 描述 | | --- | --- | | group(num=0) | 匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。 | | groups() | 返回一個包含所有小組字符串的元組，從 1 到所含的小組號。 | 實例： ~~~ import re m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345') print(m.group(0)) print(m.group(1)) print(m.group(2)) print(m.groups()) ~~~ 輸出： ~~~ 010-12345 010 12345 ('010', '12345') ~~~ * * * **7.re.sub** Python 的re模塊提供了re.sub用于替換字符串中的匹配項。語法： ~~~ re.sub(pattern, repl, string, count=0, flags=0) ~~~ 參數： * pattern : 正則中的模式字符串。 * repl : 替換的字符串，也可為一個函數。 * string : 要被查找替換的原始字符串。 * count : 模式匹配后替換的最大次數，默認 0 表示替換所有的匹配。 * flags : 編譯時用的匹配模式，數字形式。前三個為必選參數，后兩個為可選參數。實例： ~~~ import re phone = "2004-959-559 # 這是一個電話號碼" # 刪除注釋 num = re.sub(r'#.*$', "", phone) print("電話號碼 : ", num) # 移除非數字的內容 num = re.sub(r'\D', "", phone) print("電話號碼 : ", num) ~~~ ### **7.貪婪匹配** 需要特別指出的是，正則匹配默認是貪婪匹配，也就是匹配盡可能多的字符。舉例如下，匹配出數字后面的`0`： ~~~ >>> re.match(r'^(\d+)(0*)$', '102300').groups() ('102300', '') ~~~ 由于`\d+`采用貪婪匹配，直接把后面的`0`全部匹配了，結果`0*`只能匹配空字符串了。必須讓`\d+`采用非貪婪匹配（也就是盡可能少匹配），才能把后面的`0`匹配出來，加個`?`就可以讓`\d+`采用非貪婪匹配： ~~~ >>> re.match(r'^(\d+?)(0*)$', '102300').groups() ('1023', '00') ~~~ 結語：正則雖然理解起來可能會有一點難，確實一個難得的好東西，熟練掌握正則，不僅可以提高程序的運行速度，還能縮短我們的工作時間。最后附上轉載地址：[https://www.cnblogs.com/CYHISTW/p/11363209.html](https://www.cnblogs.com/CYHISTW/p/11363209.html)