7.3.?個案研究：羅馬字母 · Dive Into Python

# 7.3.?個案研究：羅馬字母 * 7.3.1\. 校驗千位數 * 7.3.2\. 校驗百位數你可能經常看到羅馬數字，即使你沒有意識到它們。你可能曾經在老電影或者電視中看到它們 (“版權所有 `MCMXLVI`” 而不是 “版權所有`1946`”)，或者在某圖書館或某大學的貢獻墻上看到它們 (“成立于 `MDCCCLXXXVIII`”而不是“成立于`1888`”)。你也可能在某些文獻的大綱或者目錄上看到它們。這是一個表示數字的系統，它實際上能夠追溯到遠古的羅馬帝國 (因此而得名)。在羅馬數字中，利用7個不同字母進行重復或者組合來表達各式各樣的數字。 * `I` = `1` * `V` = `5` * `X` = `10` * `L` = `50` * `C` = `100` * `D` = `500` * `M` = `1000` 下面是關于構造羅馬數字的一些通用的規則的介紹： * 字符是疊加的。`I` 表示 `1`，`II` 表示 `2`，而 `III` 表示 `3`。`VI` 表示 `6` (字面上為逐字符相加，“`5` 加 `1`”)，`VII` 表示 `7`，`VIII` 表示 `8`。 * 含十字符 (`I`、`X`、`C` 和 `M`) 至多可以重復三次。對于 `4`，你則需要利用下一個最大的含五字符進行減操作得到：你不能把 `4` 表示成 `IIII`，而應表示為 `IV` (“比 `5` 小 `1`”)。數字 `40` 寫成 `XL` (比 `50` 小 `10`)，`41` 寫成 `XLI`，`42` 寫成 `XLII`，`43` 寫成 `XLIII`，而 `44` 寫成 `XLIV` (比 `50` 小 `10`，然后比 `5` 小`1`)。 * 類似地，對于數字 `9`，你必須利用下一個含十字符進行減操作得到：`8` 表示為 `VIII`，而 `9` 則表示為 `IX` (比 `10` 小 `1`)，而不是 `VIIII` (因為字符 `I` 不能連續重復四次)。數字 `90` 表示為 `XC`，`900` 表示為 `CM`。 * 含五字符不能重復。數字 `10` 常表示為`X`，而從來不用`VV`來表示。數字 `100` 常表示為`C`，也從來不表示為 `LL`。 * 羅馬數字一般從高位到低位書寫，從左到右閱讀，因此不同順序的字符意義大不相同。`DC` 表示 `600`；而 `CD` 是一個完全不同的數字 (為 `400`，也就是比 `500` 小`100`)。`CI` 表示 `101`；而`IC` 甚至不是一個合法的羅馬字母 (因為你不能直接從數字`100`減去`1`；這需要寫成 `XCIX`，意思是比 `100` 小 `10`，然后加上數字 `9`，也就是比 `10` 小 `1`的數字)。 ## 7.3.1.?校驗千位數怎樣校驗任意一個字符串是否為一個有效的羅馬數字呢？我們每次只看一位數字，由于羅馬數字一般是從高位到低位書寫。我們從高位開始：千位。對于大于或等于 1000 的數字，千位由一系列的字符 `M` 表示。 ## 例?7.3.?校驗千位數 ``` >>> import re >>> pattern = '^M?M?M?$' >>> re.search(pattern, 'M') <SRE_Match object at 0106FB58> >>> re.search(pattern, 'MM') <SRE_Match object at 0106C290> >>> re.search(pattern, 'MMM') <SRE_Match object at 0106AA38> >>> re.search(pattern, 'MMMM') >>> re.search(pattern, '') <SRE_Match object at 0106F4A8> ``` | | | | --- | --- | | \[1\] | 這個模式有三部分：`^` 表示僅在一個字符串的開始匹配其后的字符串內容。如果沒有這個字符，這個模式將匹配出現在字符串任意位置上的 `M`，而這并不是你想要的。你想確認的是：字符串中是否出現字符 `M`，如果出現，則必須是在字符串的開始。`M?` 可選地匹配單個字符 `M`，由于它最多可重復出現三次，你可以在一行中匹配 0 次到 3 次字符 `M`。`$` 字符限制模式只能夠在一個字符串的結尾匹配。當和模式開頭的字符 `^` 結合使用時，這意味著模式必須匹配整個串，并且在在字符 `M` 的前后都不能夠出現其他的任意字符。 | | \[2\] | `re` 模塊的關鍵是一個 `search` 函數，該函數有兩個參數，一個是正則表達式 (`pattern`)，一個是字符串 (`'M'`)，函數試圖匹配正則表達式。如果發現一個匹配，`search` 函數返回一個擁有多種方法可以描述這個匹配的對象，如果沒有發現匹配，`search` 函數返回一個 `None`，一個 Python 空值 (null value)。你此刻關注的唯一事情，就是模式是否匹配上，于是我們利用 `search` 函數的返回值了解這個事實。字符串`'M'` 匹配上這個正則表達式，因為第一個可選的 `M` 匹配上，而第二個和第三個 `M` 被忽略掉了。 | | \[3\] | `'MM'` 能匹配上是因為第一和第二個可選的 `M` 匹配上，而忽略掉第三個 `M`。 | | \[4\] | `'MMM'` 能匹配上因為三個 `M` 都匹配上了。 | | \[5\] | `'MMMM'` 沒有匹配上。因為所有的三個 `M` 都匹配完了，但是正則表達式還有字符串尾部的限制 (由于字符 `$`)，而字符串又沒有結束 (因為還有第四個 `M` 字符)，因此 `search` 函數返回一個 `None`。 | | \[6\] | 有趣的是，一個空字符串也能夠匹配這個正則表達式，因為所有的字符 `M` 都是可選的。 | ## 7.3.2.?校驗百位數與千位數相比，百位數識別起來要困難得多，這是因為有多種相互獨立的表達方式都可以表達百位數，而具體用那種方式表達和具體的數值有關。 * `100` = `C` * `200` = `CC` * `300` = `CCC` * `400` = `CD` * `500` = `D` * `600` = `DC` * `700` = `DCC` * `800` = `DCCC` * `900` = `CM` 因此有四種可能的模式： * `CM` * `CD` * 零到三次出現 `C` 字符 (出現零次表示百位數為 0) * `D`，后面跟零個到三個 `C` 字符后面兩個模式可以結合到一起： * 一個可選的字符 `D`，加上零到 3 個 `C` 字符。這個例子顯示如何有效地識別羅馬數字的百位數。 ## 例?7.4.?檢驗百位數 ``` >>> import re >>> pattern = '^M?M?M?(CM|CD|D?C?C?C?)$' >>> re.search(pattern, 'MCM') <SRE_Match object at 01070390> >>> re.search(pattern, 'MD') <SRE_Match object at 01073A50> >>> re.search(pattern, 'MMMCCC') <SRE_Match object at 010748A8> >>> re.search(pattern, 'MCMC') >>> re.search(pattern, '') <SRE_Match object at 01071D98> ``` | | | | --- | --- | | \[1\] | 這個模式的首部和上一個模式相同，檢查字符串的開始 (`^`)，接著匹配千位數 (`M?M?M?`)，然后才是這個模式的新內容。在括號內，定義了包含有三個互相獨立的模式集合，由垂直線隔開：`CM`、`CD` 和 `D?C?C?C?` (`D`是可選字符，接著是 0 到 3 個可選的 `C` 字符)。正則表達式解析器依次檢查這些模式 (從左到右)，如果匹配上第一個模式，則忽略剩下的模式。 | | \[2\] | `'MCM'` 匹配上，因為第一個 `M` 字符匹配，第二和第三個 `M` 字符被忽略掉，而 `CM` 匹配上 (因此 `CD` 和 `D?C?C?C?` 兩個模式不再考慮)。`MCM` 表示羅馬數字`1900`。 | | \[3\] | `'MD'` 匹配上，因為第一個字符 `M` 匹配上，第二第三個 `M` 字符忽略，而模式 `D?C?C?C?` 匹配上 `D` (模式中的三個可選的字符 `C` 都被忽略掉了)。`MD` 表示羅馬數字 `1500`。 | | \[4\] | `'MMMCCC'` 匹配上，因為三個 `M` 字符都匹配上，而模式 `D?C?C?C?` 匹配上 `CCC` (字符`D`是可選的，此處忽略)。`MMMCCC` 表示羅馬數字 `3300`。 | | \[5\] | `'MCMC'` 沒有匹配上。第一個 `M` 字符匹配上，第二第三個 `M` 字符忽略，接著是 `CM` 匹配上，但是接著是 `$` 字符沒有匹配，因為字符串還沒有結束 (你仍然還有一個沒有匹配的`C`字符)。`C` 字符也_不_ 匹配模式 `D?C?C?C?` 的一部分，因為與之相互獨立的模式 `CM` 已經匹配上。 | | \[6\] | 有趣的是，一個空字符串也可以匹配這個模式，因為所有的 `M` 字符都是可選的，它們都被忽略，并且一個空字符串可以匹配 `D?C?C?C?` 模式，此處所有的字符也都是可選的，并且都被忽略。 | 哎呀！看看正則表達式能夠多快變得難以理解？你僅僅表示了羅馬數字的千位和百位上的數字。如果你根據類似的方法，十位數和各位數就非常簡單了，因為是完全相同的模式。讓我們來看表達這個模式的另一種方式吧。