更多的元字符 · Python 正則表達式操作指南

### 更多的元字符還有一些我們還沒展示的元字符，其中的大部分將在本節展示。剩下來要討論的一部分元字符是零寬界定符（zero-width assertions）。它們并不會使引擎在處理字符串時更快;相反，它們根本就沒有對應任何字符，只是簡單的成功或失敗。舉個例子， \b 是一個在單詞邊界定位當前位置的界定符（assertions），這個位置根本就不會被 \b 改變。這意味著零寬界定符（zero-width assertions）將永遠不會被重復，因為如果它們在給定位置匹配一次，那么它們很明顯可以被匹配無數次。 **|** 可選項，或者 "or" 操作符。如果 A 和 B 是正則表達式，A|B 將匹配任何匹配了 "A" 或 "B" 的字符串。| 的優先級非常低，是為了當你有多字符串要選擇時能適當地運行。Crow|Servo 將匹配"Crow" 或 "Servo", 而不是 "Cro", 一個 "w" 或一個 "S", 和 "ervo"。為了匹配字母 "|"，可以用 \|，或將其包含在字符類中，如[|]。 **^** 匹配行首。除非設置 MULTILINE 標志，它只是匹配字符串的開始。在 MULTILINE 模式里，它也可以直接匹配字符串中的每個換行。例如，如果你只希望匹配在行首單詞 "From"，那么 RE 將用 ^From。 ``` #!python >>> print re.search('^From', 'From Here to Eternity') <re.MatchObject instance at 80c1520> >>> print re.search('^From', 'Reciting From Memory') None ``` **$** 匹配行尾，行尾被定義為要么是字符串尾，要么是一個換行字符后面的任何位置。 ``` #!python >>> print re.search('}$', '{block}') <re.MatchObject instance at 80adfa8> >>> print re.search('}$', '{block} ') None >>> print re.search('}$', '{block}\n') <re.MatchObject instance at 80adfa8> ``` 匹配一個 "$"，使用 \$ 或將其包含在字符類中，如[$]。 **\A** 只匹配字符串首。當不在 MULTILINE 模式，\A 和 ^ 實際上是一樣的。然而，在 MULTILINE 模式里它們是不同的；\A 只是匹配字符串首，而 ^ 還可以匹配在換行符之后字符串的任何位置。 **\Z** Matches only at the end of the string. 只匹配字符串尾。 **\b** 單詞邊界。這是個零寬界定符（zero-width assertions）只用以匹配單詞的詞首和詞尾。單詞被定義為一個字母數字序列，因此詞尾就是用空白符或非字母數字符來標示的。下面的例子只匹配 "class" 整個單詞；而當它被包含在其他單詞中時不匹配。 ``` #!python >>> p = re.compile(r'\bclass\b') >>> print p.search('no class at all') <re.MatchObject instance at 80c8f28> >>> print p.search('the declassified algorithm') None >>> print p.search('one subclass is') None ``` 當用這個特殊序列時你應該記住這里有兩個微妙之處。第一個是 Python 字符串和正則表達式之間最糟的沖突。在 Python 字符串里，"\b" 是反斜杠字符，ASCII值是8。如果你沒有使用 raw 字符串時，那么 Python 將會把 "\b" 轉換成一個回退符，你的 RE 將無法象你希望的那樣匹配它了。下面的例子看起來和我們前面的 RE 一樣，但在 RE 字符串前少了一個 "r" 。 ``` #!python >>> p = re.compile('\bclass\b') >>> print p.search('no class at all') None >>> print p.search('\b' + 'class' + '\b') <re.MatchObject instance at 80c3ee0> ``` 第二個在字符類中，這個限定符（assertion）不起作用，\b 表示回退符，以便與 Python 字符串兼容。 **\B** 另一個零寬界定符（zero-width assertions），它正好同 \b 相反，只在當前位置不在單詞邊界時匹配。