正則表達式 · python

[TOC] # 簡介 ~~~ import re # 使用match方法進行匹配操作 result = re.match(正則表達式, 要匹配的字符串) # 如果上一步匹配到數據的話,可以使用group方法來提取數據 result.group() ~~~ 例子 ~~~ import re # 非轉義的原始字符串 match = re.match(r'[hH]ello', 'hello world') # 如果有返回值表示匹配成功 print(match) group = match.group() print(group) ~~~ # 匹配單個字符 | 字符 | 功能 | |---|---| | . | 匹配任意1個字符(除了\n) | | [] | 匹配[]中列舉的字符 | | \d | 匹配數字,即0-9 | | \D | 匹配非數字,即不是數字 | | \s | 匹配恐怖,即空格,tab鍵 | | \S | 匹配非空白 | | \w | 匹配單詞字符,即`a-z,A-Z,0-9,_`,還支持中文,因為是unicode碼 | | \W | 匹配非單詞字符,小w不成功的大W就成功 | # 匹配多個字符匹配多個字符的相關格式 | 字符 | 功能 | |---|---| | * | 匹配前一個字符出現0次或者無限次,即可有可無 | | + | 匹配前一個字符出現1次或者無限次,即至少有一次 | | ? | 匹配前一個字符出現1次或者0次,即要么有1次,要么沒有 | | {m} | 匹配前一個字符出現m次 | | {m,n} | 匹配前一個字符出現從m到n次 | # 匹配開頭結尾 | 字符 | 功能 | |---|---| | `^` | 匹配字符串開頭 | | `$` | 匹配字符串結尾 | # 匹配分組 | 字符 | 功能 | |---|---| | `|` | 匹配左右任意一個表達式 | | (ab) | 將括號中字符作為一個分組 | | `\num` | 引用分組num匹配到的字符串 | | `(?p<name>)` | 分組起別名 | | `(?P=name)` | 引用別名為name分組匹配到的字符串 | 以`()`分開一個個組 ~~~ import re group = re.match(r"([a-zA-Z0-9_]{4,20})@(163|126)\.com$", 'laowang@163.com').group(2) print(group) ~~~ `\num`匹配第多少個() ~~~ import re html_str = '<body><h1>hahaha</h1></body>' group = re.match(r"<(\w*)><(\w*)>.*</\2></\1>", html_str).group() print(group) ~~~ 分組別名 ~~~ import re html_str = '<body><h1>hahaha</h1></body>' group = re.match(r"<(?P<p1>\w*)><(?P<p2>\w*)>.*</(?P=p2)></(?P=p1)>", html_str).group() print(group) ~~~ # 高級用法 ## search match是從頭匹配,而search是只匹配到符合標準的那個就行了 ~~~ import re ret = re.search(r"\d+", "閱讀次數為 999") group = ret.group() print(group) ~~~ ## findall 有多少個符合就全找出,放到列表中 ~~~ import re ret = re.findall(r"\d+", "python = 999, c = 7890, c++ = 12345") print(ret) ~~~ ## sub 將匹配到的數據進行替換 ~~~ import re ret = re.sub(r"\d+", '998', 'python = 997') print(ret) ~~~ 輸出 ~~~ python = 998 ~~~ ## split 根據匹配進行切割字符串,并返回一個列表 ~~~ import re # 用:或者空格切割 ret = re.split(r":| ", "info:xiaozhang 33 shangdong") print(ret) ~~~ 輸出 ~~~ ['info', 'xiaozhang', '33', 'shangdong'] ~~~