Python正則表達式 · TUNA-daily

[TOC] ## 1. 一覽表 ![](https://box.kancloud.cn/73134c873e258a1f86c75bc7530d879d_700x1506.png) 1. r（raw）在Python是原始字符串,輸入的字符串是什么樣的，字符串就是啥樣的，Python自動幫助轉義。 ~~~ In [19]: s Out[19]: '\\nabc' # 轉義 \\\\ In [20]: re.match("\\\\nabc", s) Out[20]: <_sre.SRE_Match object; span=(0, 5), match='\\nabc'> # r原始字符串，Python自動轉義（推薦） In [21]: re.match(r"\\nabc", s) Out[21]: <_sre.SRE_Match object; span=(0, 5), match='\\nabc'> ~~~ 2. 正則引用分組值 \n 引用第n組 ~~~ In [58]: re.match(r"<.+><.+>.+</.+></.+>", s) # 這樣對應標簽不匹配也行了 Out[58]: <_sre.SRE_Match object; span=(0, 25), match='<html><h1>itcast</h1></h>'> In [59]: re.match(r"<(.+)><(.+)>.+</\2></\1>", s) # 這樣對應的標簽不一樣就不行了 In [60]: s = "<html><h1>itcast</h1></html>" In [61]: re.match(r"<(.+)><(.+)>.+</\2></\1>", s) # 匹配對應標簽一樣的 Out[61]: <_sre.SRE_Match object; span=(0, 28), match='<html><h1>itcast</h1></html>'> ~~~ 3. | 1. 部分或 ~~~ InIn [2]: p ="\w+@(163|126|qq|gmail)\.(com|cn|net)$" In [3]: r = re.match(p,"93130@qq.com") In [4]: r.group() Out[4]: '93130@qq.com' ~~~ 2. 整體或就不加（） 4. 給分組起名 (?P<name>) 起名 (?p=name) 引用分組名 ~~~ In [5]: s = "<html><h1>itcast</h1></html>" In [6]: re.match(r"<(?P<key1>.+)><(?P<key2>.+)>.+</(?P=key2)></(?P=key1)>", s) Out[6]: <_sre.SRE_Match object; span=(0, 28), match='<html><h1>itcast</h1></html>'> In [7]: s = re.match(r"<(?P<key1>.+)><(?P<key2>.+)>.+</(?P=key2)></(?P=key1)>", s) In [8]: s.group(1) Out[8]: 'html' In [9]: s.group(2)) File "<ipython-input-9-3dbd1085e6ad>", line 1 s.group(2)) ^ SyntaxError: invalid syntax In [10]: s.group(2) Out[10]: 'h1' ~~~ 5. 貪婪模式（盡可能多的匹配）與非貪婪模式（第一次滿足匹配即可） ~~~ # 貪婪模式，只要結尾是>就包含進來 In [11]: re.match(r"<.+>","<html><h1>itcast</h1></html>") Out[11]: <_sre.SRE_Match object; span=(0, 28), match='<html><h1>itcast</h1></html>'> # 非貪婪模式，只要剛有結尾是>匹配結束 In [12]: re.match(r"<.+?>","<html><h1>itcast</h1></html>") Out[12]: <_sre.SRE_Match object; span=(0, 6), match='<html>'> ~~~ * 不貪婪其他模式的匹配 ~~~ In [113]: s="This is a number 234-235-22-423" In [114]: r = re.match(r".+(\d+-\d+-\d+-\d+)", s) In [115]: r.group(1) Out[115]: '4-235-22-423' In [116]: r = re.match(r"(.+)(\d+-\d+-\d+-\d+)", s) In [117]: r.groups() Out[117]: ('This is a number 23', '4-235-22-423') In [118]: r = re.match(r"(.+?)(\d+-\d+-\d+-\d+)", s) In [119]: r.groups() Out[119]: ('This is a number ', '234-235-22-423') ~~~ ## 2. 匹配數字 ~~~ import re matchObj = re.match( r'^(20|[0-1]?[0-9])$', '21') if matchObj: print("match --> matchObj.group() : ", matchObj.group()) else: print("No match!!") ~~~ ~~~ 主要依據[0-9]匹配0到9 ~~~ ~~~ 1. 1-20 r'^(20|[0-1]?[0-9])$' 2. 1 to 53 (week of the year) ^(5[0-3]|[1-4][0-9]|[1-9])$ 3. 0 to 59 (minute or second) ^[1-5]?[0-9]$ 4. 32 to 126 (printable ASCII codes) ^(12[0-6]|1[01][0-9]|[4-9][0-9]|3[2-9])$ 5. 0 to 127 (nonnegative signed byte) ^(12[0-7]|1[01][0-9]|[1-9]?[0-9])$ 6. -128 to 127 (sinned byte) ^(12[0-7]|1[01][0-9]|[1-9]?[0-9]|-(12[08]|1[01][0-9]|[1-9]?[0-9]))$ 7. 0 to 255 (unsigned byte) ^(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9]?[0-9])$ 8. 1 to 366 (day of the year) ^(36[0-6]|3[0-5][0-9]|[12][0-9]{2}|[1-9][0-9]?)$ 9. 1900 to 2099 (year) ^(19|20)[0-9]{2}$ ~~~ ## 3. match 從頭匹配 re.match 嘗試從字符串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。 ### 3.1 語法 ~~~ re.match(pattern, string, flags=0) ~~~ 函數參數說明： ~~~ 參數描述 pattern 匹配的正則表達式 string 要匹配的字符串。 flags 標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等 ~~~ > 1. 匹配成功re.match方法返回一個匹配的對象，否則返回None。 > 2. 可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。 > 匹配對象方法描述 ~~~ group(num=0) 匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。 groups() 返回一個包含所有小組字符串的元組，從 1 到所含的小組號。 ~~~ flags : 可選：表示匹配模式，比如忽略大小寫，多行模式等，具體參數為： ~~~ re.I 忽略大小寫 re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴于當前環境 re.M 多行模式 re.S 即為 . 并且包括換行符在內的任意字符（. 不包括換行符） re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴于 Unicode 字符屬性數據庫 re.X 為了增加可讀性，忽略空格和 # 后面的注釋 ~~~ ### 3.2 實例1 ~~~ #!/usr/bin/python # -*- coding: UTF-8 -*- import re print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配，span代表index區間 print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配 ~~~ 以上實例運行輸出結果為： ~~~ (0, 3) None ~~~ ### 3.2 實例2 ~~~ #!/usr/bin/python import re line = "Cats are smarter than dogs" matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I) if matchObj: print "matchObj.group() : ", matchObj.group() # group不寫序號或者0 代表整個匹配結果 print "matchObj.group(1) : ", matchObj.group(1) # 正則中第一個用括號包裹起來的 print "matchObj.group(2) : ", matchObj.group(2) # 正則中第二個括號 else: print "No match!!" ~~~ 以上實例執行結果如下： ~~~ matchObj.group() : Cats are smarter than dogs matchObj.group(1) : Cats matchObj.group(2) : smarter ~~~ ## 4. search re.search 掃描整個字符串并返回第一個成功的匹配。函數語法： ~~~ re.search(pattern, string, flags=0) ~~~ 函數參數說明： ~~~ 參數描述 pattern 匹配的正則表達式 string 要匹配的字符串。 flags 標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。 ~~~ > 匹配成功re.search方法返回一個匹配的對象，否則返回None。 > 我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。 ~~~ 匹配對象方法描述 group(num=0) 匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。 groups() 返回一個包含所有小組字符串的元組，從 1 到所含的小組號。 ~~~ ### 4.1 實例1 ~~~ #!/usr/bin/python # -*- coding: UTF-8 -*- import re print(re.search('www', 'www.runoob.com').span()) # 在起始位置匹配 print(re.search('com', 'www.runoob.com').span()) # 不在起始位置匹配 ~~~ 以上實例運行輸出結果為： ~~~ (0, 3) (11, 14) ~~~ ### 4.2 實例2 ~~~ #!/usr/bin/python import re line = "Cats are smarter than dogs"; searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I) if searchObj: print "searchObj.group() : ", searchObj.group() print "searchObj.group(1) : ", searchObj.group(1) print "searchObj.group(2) : ", searchObj.group(2) else: print "Nothing found!!" ~~~ 以上實例執行結果如下： ~~~ searchObj.group() : Cats are smarter than dogs searchObj.group(1) : Cats searchObj.group(2) : smarter ~~~ ### 4.3 實例3 ~~~ import re dirpath = '/data/fastdfs/storage/data/00/00' paths = re.search(r'/data/fastdfs/storage/data(.*)', dirpath).group(1) print(paths) ~~~ 輸出 ~~~ /00/00 ~~~ ## 5. re.match與re.search的區別 > re.match只匹配字符串的開始，如果字符串開始不符合正則表達式，則匹配失敗，函數返回None；而re.search匹配整個字符串，直到找到一個匹配。實例 ~~~ #!/usr/bin/python import re line = "Cats are smarter than dogs"; matchObj = re.match( r'dogs', line, re.M|re.I) if matchObj: print "match --> matchObj.group() : ", matchObj.group() else: print "No match!!" matchObj = re.search( r'dogs', line, re.M|re.I) if matchObj: print "search --> matchObj.group() : ", matchObj.group() else: print "No match!!" ~~~ 以上實例運行結果如下： ~~~ No match!! search --> matchObj.group() : dogs ~~~ ## 6. 檢索和替換 Python 的 re 模塊提供了re.sub用于替換字符串中的匹配項。 **語法：** re.sub(pattern, repl, string, count=0, flags=0) **參數：** ~~~ pattern : 正則中的模式字符串。 repl : 替換的字符串，也可為一個函數。 string : 要被查找替換的原始字符串。 count : 模式匹配后替換的最大次數，默認 0 表示替換所有的匹配。 ~~~ ### 6.1 實例 ~~~ #!/usr/bin/python # -*- coding: UTF-8 -*- import re phone = "2004-959-559 # 這是一個國外電話號碼" # 刪除字符串中的 Python注釋 num = re.sub(r'#.*$', "", phone) print "電話號碼是: ", num # 刪除非數字(-)的字符串 num = re.sub(r'\D', "", phone) print "電話號碼是 : ", num ~~~ 以上實例執行結果如下： ~~~ 電話號碼是: 2004-959-559 電話號碼是 : 2004959559 ~~~ repl 參數是一個函數以下實例中將字符串中的匹配的數字乘以 2： ### 6.2 實例2 ~~~ #!/usr/bin/python # -*- coding: UTF-8 -*- import re # 將匹配的數字乘以 2 def double(matched): value = int(matched.group('value')) return str(value * 2) s = 'A23G4HFD567' print(re.sub('(?P<value>\d+)', double, s)) ~~~ 執行輸出結果為： ~~~ A46G8HFD1134 ~~~ ## 7. re.compile 函數 > compile 函數用于編譯正則表達式，生成一個正則表達式（ Pattern ）對象，供 match() 和 search() 這兩個函數使用。 **語法格式為：** ~~~ re.compile(pattern[, flags]) ~~~ 參數： pattern : 一個字符串形式的正則表達式 flags : 可選，表示匹配模式，比如忽略大小寫，多行模式等，具體參數為： re.I 忽略大小寫 re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴于當前環境 re.M 多行模式 re.S 即為 . 并且包括換行符在內的任意字符（. 不包括換行符） re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴于 Unicode 字符屬性數據庫 re.X 為了增加可讀性，忽略空格和 # 后面的注釋實例 ~~~ >>>import re >>> pattern = re.compile(r'\d+') # 用于匹配至少一個數字 >>> m = pattern.match('one12twothree34four') # 查找頭部，沒有匹配 >>> print m None >>> m = pattern.match('one12twothree34four', 2, 10) # 從'e'的位置開始匹配，沒有匹配 >>> print m None >>> m = pattern.match('one12twothree34four', 3, 10) # 從'1'的位置開始匹配，正好匹配 >>> print m # 返回一個 Match 對象 <_sre.SRE_Match object at 0x10a42aac0> >>> m.group(0) # 可省略 0 '12' >>> m.start(0) # 可省略 0 3 >>> m.end(0) # 可省略 0 5 >>> m.span(0) # 可省略 0 (3, 5) ~~~ 在上面，當匹配成功時返回一個 Match 對象，其中： group([group1, …]) 方法用于獲得一個或多個分組匹配的字符串，當要獲得整個匹配的子串時，可直接使用 group() 或 group(0)； start([group]) 方法用于獲取分組匹配的子串在整個字符串中的起始位置（子串第一個字符的索引），參數默認值為 0； end([group]) 方法用于獲取分組匹配的子串在整個字符串中的結束位置（子串最后一個字符的索引+1），參數默認值為 0； span([group]) 方法返回 (start(group), end(group))。再看看一個例子：實例 ~~~ >>>import re >>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) # re.I 表示忽略大小寫 >>> m = pattern.match('Hello World Wide Web') >>> print m # 匹配成功，返回一個 Match 對象 <_sre.SRE_Match object at 0x10bea83e8> >>> m.group(0) # 返回匹配成功的整個子串 'Hello World' >>> m.span(0) # 返回匹配成功的整個子串的索引 (0, 11) >>> m.group(1) # 返回第一個分組匹配成功的子串 'Hello' >>> m.span(1) # 返回第一個分組匹配成功的子串的索引 (0, 5) >>> m.group(2) # 返回第二個分組匹配成功的子串 'World' >>> m.span(2) # 返回第二個分組匹配成功的子串 (6, 11) >>> m.groups() # 等價于 (m.group(1), m.group(2), ...) ('Hello', 'World') >>> m.group(3) # 不存在第三個分組 Traceback (most recent call last): File "<stdin>", line 1, in <module> IndexError: no such group findall ~~~ 在字符串中找到正則表達式所匹配的所有子串，并返回一個列表，如果沒有找到匹配的，則返回空列表。注意： match 和 search 是匹配一次 findall 匹配所有。語法格式為： ## 8. findall(string[, pos[, endpos]]) > 按照正則查找所有匹配項參數： ~~~ string : 待匹配的字符串。 pos : 可選參數，指定字符串的起始位置，默認為 0。 endpos : 可選參數，指定字符串的結束位置，默認為字符串的長度。 ~~~ 實例 ~~~ # -*- coding:UTF8 -*- import re pattern = re.compile(r'\d+') # 查找數字 result1 = pattern.findall('runoob 123 google 456') result2 = pattern.findall('run88oob123google456', 0, 10) print(result1) print(result2) ~~~ 輸出結果： ~~~ ['123', '456'] ['88', '12'] ~~~ ## 9. re.finditer > 和 findall 類似，在字符串中找到正則表達式所匹配的所有子串，并把它們作為一個迭代器返回。 re.finditer(pattern, string, flags=0) 參數： ~~~ 參數描述 pattern 匹配的正則表達式 string 要匹配的字符串。 flags 標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。參見：正則表達式修飾符 - 可選標志 ~~~ ### 9.1 實例 ~~~ # -*- coding: UTF-8 -*- import re it = re.finditer(r"\d+","12a32bc43jf3") for match in it: print (match.group() ) ~~~ 輸出結果： ~~~ 12 32 43 3 ~~~ ## 10 re.split > split 方法按照能夠匹配的子串將字符串分割后返回列表，它的使用形式如下： ~~~ re.split(pattern, string[, maxsplit=0, flags=0]) ~~~ 參數： ~~~ 參數描述 pattern 匹配的正則表達式 string 要匹配的字符串。 maxsplit 分隔次數，maxsplit=1 分隔一次，默認為 0，不限制次數。 flags 標志位，用于控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。參見：正則表達式修飾符 - 可選標志 ~~~ 實例 ~~~ >>>import re >>> re.split('\W+', 'runoob, runoob, runoob.') ['runoob', 'runoob', 'runoob', ''] >>> re.split('(\W+)', ' runoob, runoob, runoob.') ['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', ''] >>> re.split('\W+', ' runoob, runoob, runoob.', 1) ['', 'runoob, runoob, runoob.'] >>> re.split('a*', 'hello world') # 對于一個找不到匹配的字符串而言，split 不會對其作出分割 ['hello world'] ~~~ ## 11. 正則表達式對象 re.RegexObject re.compile() 返回 RegexObject 對象。 re.MatchObject group() 返回被 RE 匹配的字符串。 ~~~ start() 返回匹配開始的位置 end() 返回匹配結束的位置 span() 返回一個元組包含匹配 (開始,結束) 的位置 ~~~ ## 12. 正則表達式修飾符 - 可選標志正則表達式可以包含一些可選標志修飾符來控制匹配的模式。修飾符被指定為一個可選的標志。多個標志可以通過按位 OR(|) 它們來指定。如 re.I | re.M 被設置成 I 和 M 標志：修飾符描述 ~~~ re.I 使匹配對大小寫不敏感 re.L 做本地化識別（locale-aware）匹配 re.M 多行匹配，影響 ^ 和 $ re.S 使 . 匹配包括換行在內的所有字符 re.U 根據Unicode字符集解析字符。這個標志影響 \w, \W, \b, \B. re.X 該標志通過給予你更靈活的格式以便你將正則表達式寫得更易于理解。 ~~~