編譯標志 · Python 正則表達式操作指南

### 編譯標志編譯標志讓你可以修改正則表達式的一些運行方式。在 re 模塊中標志可以使用兩個名字，一個是全名如 IGNORECASE，一個是縮寫，一字母形式如 I。（如果你熟悉 Perl 的模式修改，一字母形式使用同樣的字母；例如 re.VERBOSE的縮寫形式是 re.X。）多個標志可以通過按位 OR-ing 它們來指定。如 re.I | re.M 被設置成 I 和 M 標志：這有個可用標志表，對每個標志后面都有詳細的說明。 | 標志 | 含義 | | --- | --- | | DOTALL, S | 使 . 匹配包括換行在內的所有字符 | | IGNORECASE, I | 使匹配對大小寫不敏感 | | LOCALE, L | 做本地化識別（locale-aware）匹配 | | MULTILINE, M | 多行匹配，影響 ^ 和 $ | | VERBOSE, X | 能夠使用 REs 的 verbose 狀態，使之被組織得更清晰易懂 | **I** **IGNORECASE** 使匹配對大小寫不敏感；字符類和字符串匹配字母時忽略大小寫。舉個例子，[A-Z]也可以匹配小寫字母，Spam 可以匹配 "Spam", "spam", 或 "spAM"。這個小寫字母并不考慮當前位置。 **L** **LOCALE** 影響 \w, \W, \b, 和 \B，這取決于當前的本地化設置。 locales 是 C 語言庫中的一項功能，是用來為需要考慮不同語言的編程提供幫助的。舉個例子，如果你正在處理法文文本，你想用 \w+ 來匹配文字，但 \w 只匹配字符類 [A-Za-z]；它并不能匹配 "é" 或 "?"。如果你的系統配置適當且本地化設置為法語，那么內部的 C 函數將告訴程序 "é" 也應該被認為是一個字母。當在編譯正則表達式時使用 LOCALE 標志會得到用這些 C 函數來處理 \w 后的編譯對象；這會更慢，但也會象你希望的那樣可以用 \w+ 來匹配法文文本。 **M** **MULTILINE** (此時 ^ 和 $ 不會被解釋; 它們將在 4.1 節被介紹.) 使用 "^" 只匹配字符串的開始，而 $ 則只匹配字符串的結尾和直接在換行前（如果有的話）的字符串結尾。當本標志指定后， "^" 匹配字符串的開始和字符串中每行的開始。同樣的， $ 元字符匹配字符串結尾和字符串中每行的結尾（直接在每個換行之前）。 **S** **DOTALL** 使 "." 特殊字符完全匹配任何字符，包括換行；沒有這個標志， "." 匹配除了換行外的任何字符。 **X** **VERBOSE** 該標志通過給予你更靈活的格式以便你將正則表達式寫得更易于理解。當該標志被指定時，在 RE 字符串中的空白符被忽略，除非該空白符在字符類中或在反斜杠之后；這可以讓你更清晰地組織和縮進 RE。它也可以允許你將注釋寫入 RE，這些注釋會被引擎忽略；注釋用 "#"號來標識，不過該符號不能在字符串或反斜杠之后。舉個例子，這里有一個使用 re.VERBOSE 的 RE；看看讀它輕松了多少？ ``` #!python charref = re.compile(r"""&[[]] # Start of a numeric entity reference|||here has wrong.i can't fix ( [0-9]+[^0-9] # Decimal form | 0[0-7]+[^0-7] # Octal form | x[0-9a-fA-F]+[^0-9a-fA-F] # Hexadecimal form ) """, re.VERBOSE) ``` 沒有 verbose 設置， RE 會看起來象這樣： ``` #!python charref = re.compile("&#([0-9]+[^0-9]" "|0[0-7]+[^0-7]" "|x[0-9a-fA-F]+[^0-9a-fA-F])") ``` 在上面的例子里，Python 的字符串自動連接可以用來將 RE 分成更小的部分，但它比用 re.VERBOSE 標志時更難懂