17.2.?plural.py, 第 1 階段 · Dive Into Python

# 17.2.?`plural.py`, 第 1 階段你所針對的單詞 (至少在英語中) 是字符串和字符。你還需要規則來找出不同的字符 (字母) 組合，并對它們進行不同的操作。這聽起來像是正則表達式的工作。 ## 例?17.1.?`plural1.py` ``` import re def plural(noun): if re.search('[sxz]$', noun): return re.sub('$', 'es', noun) elif re.search('[^aeioudgkprt]h$', noun): return re.sub('$', 'es', noun) elif re.search('[^aeiou]y$', noun): return re.sub('y$', 'ies', noun) else: return noun + 's' ``` | | | | --- | --- | | \[1\] | 好啦，這是一個正則表達式，但是它使用了你在 [第?7?章 _正則表達式_](../regular_expressions/index.html "第?7?章?正則表達式") 中未曾見過的語法。方括號的意思是 “完全匹配這些字符中的一個”。也就是說，`[sxz]` 意味著 “`s`，或者 `x`，再或者 `z`”，但只是其中的一個。`$` 應該不陌生，它意味著匹配字符串的結尾。也就是說，檢查 `noun` 是否以 `s`，`x`，或者 `z` 結尾。 | | \[2\] | `re.sub` 函數進行以正則表達式為基礎的替換工作。讓我們更具體地看看它。 | ## 例?17.2.?`re.sub` 介紹 ``` >>> import re >>> re.search('[abc]', 'Mark') <_sre.SRE_Match object at 0x001C1FA8> >>> re.sub('[abc]', 'o', 'Mark') 'Mork' >>> re.sub('[abc]', 'o', 'rock') 'rook' >>> re.sub('[abc]', 'o', 'caps') 'oops' ``` | | | | --- | --- | | \[1\] | `Mark` 包含 `a`，`b`，或者 `c`嗎？是的，含有 `a`。 | | \[2\] | 好的，現在找出 `a`，`b`，或者 `c` 并以 `o` 取代之。`Mark` 就變成 `Mork` 了。 | | \[3\] | 同一方法可以將 `rock` 變成 `rook`。 | | \[4\] | 你可能認為它可以將 `caps` 變成 `oaps`，但事實并非如此。`re.sub` 替換_所有_ 的匹配項，并不只是第一個匹配項。因此正則表達式將會把 `caps` 變成 `oops`，因為 `c` 和 `a` 都被轉換為 `o`了。 | ## 例?17.3.?回到 `plural1.py` ``` import re def plural(noun): if re.search('[sxz]$', noun): return re.sub('$', 'es', noun) elif re.search('[^aeioudgkprt]h$', noun): return re.sub('$', 'es', noun) elif re.search('[^aeiou]y$', noun): return re.sub('y$', 'ies', noun) else: return noun + 's' ``` | | | | --- | --- | | \[1\] | 回到 `plural` 函數。你在做什么？你在以 `es` 取代字符串的結尾。換句話說，追加 `es` 到字符串。你可以通過字符串拼合做到相同的事，例如 `noun + 'es'`，但是我使用正則表達式做這一切，既是為了保持一致，也是為了本章稍后你會明白的其它原因。 | | \[2\] | 仔細看看，這是另一個新的內容。`^` 是方括號里面的第一個字符，這有特別的含義：否定。`[^abc]` 意味著 “ 除 `a`、 `b`、和 `c` _以外的_ 任意單字符”。所以，`[^aeioudgkprt]` 意味著除 `a`、 `e`、 `i`、 `o`、 `u`、 `d`、 `g`、 `k`、 `p`、 `r` 和 `t` 以外的任意字符。這個字符之后應該跟著一個 `h`，然后是字符串的結尾。你在尋找的是以發音的 H 結尾的單詞。 | | \[3\] | 這是一個相似的表達：匹配 Y 前面_不是_ `a`、 `e`、 `i`、 `o` 和 `u`，并以這個 Y 結尾的單詞。你在查找的是以發 I 音的 Y 結尾的單詞。 | ## 例?17.4.?正則表達式中否定的更多應用 ``` >>> import re >>> re.search('[^aeiou]y$', 'vacancy') <_sre.SRE_Match object at 0x001C1FA8> >>> re.search('[^aeiou]y$', 'boy') >>> >>> re.search('[^aeiou]y$', 'day') >>> >>> re.search('[^aeiou]y$', 'pita') >>> ``` | | | | --- | --- | | \[1\] | `vacancy` 匹配這個正則表達式，因為它以 `cy` 結尾，并且 `c` 不在 `a`、 `e`、 `i`、 `o` 和 `u` 之列。 | | \[2\] | `boy` 不能匹配，因為它以 `oy` 結尾，并且你特別指出 `y` 之前的字符不可以是 `o`。`day` 不能匹配是因為以 `ay` 結尾。 | | \[3\] | `pita` 不匹配是因為不以 `y` 結尾。 | ## 例?17.5.?更多的 `re.sub` ``` >>> re.sub('y$', 'ies', 'vacancy') 'vacancies' >>> re.sub('y$', 'ies', 'agency') 'agencies' >>> re.sub('([^aeiou])y$', r'\1ies', 'vacancy') 'vacancies' ``` | | | | --- | --- | | \[1\] | 正則表達式把 `vacancy` 變為 `vacancies`，把 `agency` 變為 `agencies`，這正是你想要的。注意，將 `boy` 變成 `boies` 是可行的，但是永遠不會發生，因為 `re.search` 首先確定是否應該應用 `re.sub`。 | | \[2\] | 順便提一下，可以將兩個正則表達式 (一個確定規則適用與否，一個應用規則) 合并在一起成為一個正則表達式。這便是合并后的樣子。它的大部分已經很熟悉：你應用的是在 [第?7.6?節 “個案研究：解析電話號碼”](../regular_expressions/phone_numbers.html "7.6.?個案研究：解析電話號碼") 學過的記憶組 (remembered group) 記住 `y` 之前的字符。然后再替換字符串，你使用一個新的語法 `\1`，這意味著：“嘿！記得前面的第一個組嗎？把它放這兒”。就此而言，記住了 `y` 之前的 `c` ，然后你做替換工作，你將 `c` 替換到 `c` 的位置，并將 `ies` 替換到 `y` 的位置。(如果你有不止一個組則可以使用 `\2` 或者 `\3` 等等。) | 正則表達式替換非常強大，并且 `\1` 語法使之更加強大。但是將整個操作放在一個正則表達式中仍然晦澀難懂，也不能與前面描述的復數規則直接呼應。你原來列出的規則，比如 “如果單詞以 S，X 或者 Z 結尾，結尾追加 ES”。如果你在函數中看到兩行代碼描述 “如果單詞以 S，X 或者 Z 結尾，結尾追加 ES”，更加直觀些。