# 7.3.?個案研究:羅馬字母
* 7.3.1\. 校驗千位數
* 7.3.2\. 校驗百位數
你可能經常看到羅馬數字,即使你沒有意識到它們。你可能曾經在老電影或者電視中看到它們 (“版權所有 `MCMXLVI`” 而不是 “版權所有`1946`”),或者在某圖書館或某大學的貢獻墻上看到它們 (“成立于 `MDCCCLXXXVIII`”而不是“成立于`1888`”)。你也可能在某些文獻的大綱或者目錄上看到它們。這是一個表示數字的系統,它實際上能夠追溯到遠古的羅馬帝國 (因此而得名)。
在羅馬數字中,利用7個不同字母進行重復或者組合來表達各式各樣的數字。
* `I` = `1`
* `V` = `5`
* `X` = `10`
* `L` = `50`
* `C` = `100`
* `D` = `500`
* `M` = `1000`
下面是關于構造羅馬數字的一些通用的規則的介紹:
* 字符是疊加的。`I` 表示 `1`,`II` 表示 `2`,而 `III` 表示 `3`。`VI` 表示 `6` (字面上為逐字符相加,“`5` 加 `1`”),`VII` 表示 `7`,`VIII` 表示 `8`。
* 含十字符 (`I`、`X`、`C` 和 `M`) 至多可以重復三次。對于 `4`,你則需要利用下一個最大的含五字符進行減操作得到:你不能把 `4` 表示成 `IIII`,而應表示為 `IV` (“比 `5` 小 `1`”)。數字 `40` 寫成 `XL` (比 `50` 小 `10`),`41` 寫成 `XLI`,`42` 寫成 `XLII`,`43` 寫成 `XLIII`,而 `44` 寫成 `XLIV` (比 `50` 小 `10`,然后比 `5` 小`1`)。
* 類似地,對于數字 `9`,你必須利用下一個含十字符進行減操作得到:`8` 表示為 `VIII`,而 `9` 則表示為 `IX` (比 `10` 小 `1`),而不是 `VIIII` (因為字符 `I` 不能連續重復四次)。數字 `90` 表示為 `XC`,`900` 表示為 `CM`。
* 含五字符不能重復。數字 `10` 常表示為`X`,而從來不用`VV`來表示。數字 `100` 常表示為`C`,也從來不表示為 `LL`。
* 羅馬數字一般從高位到低位書寫,從左到右閱讀,因此不同順序的字符意義大不相同。`DC` 表示 `600`;而 `CD` 是一個完全不同的數字 (為 `400`,也就是比 `500` 小`100`)。`CI` 表示 `101`;而`IC` 甚至不是一個合法的羅馬字母 (因為你不能直接從數字`100`減去`1`;這需要寫成 `XCIX`,意思是比 `100` 小 `10`,然后加上數字 `9`,也就是比 `10` 小 `1`的數字)。
## 7.3.1.?校驗千位數
怎樣校驗任意一個字符串是否為一個有效的羅馬數字呢?我們每次只看一位數字,由于羅馬數字一般是從高位到低位書寫。我們從高位開始:千位。對于大于或等于 1000 的數字,千位由一系列的字符 `M` 表示。
## 例?7.3.?校驗千位數
```
>>> import re
>>> pattern = '^M?M?M?$'
>>> re.search(pattern, 'M')
<SRE_Match object at 0106FB58>
>>> re.search(pattern, 'MM')
<SRE_Match object at 0106C290>
>>> re.search(pattern, 'MMM')
<SRE_Match object at 0106AA38>
>>> re.search(pattern, 'MMMM')
>>> re.search(pattern, '')
<SRE_Match object at 0106F4A8>
```
| | |
| --- | --- |
| \[1\] | 這個模式有三部分:`^` 表示僅在一個字符串的開始匹配其后的字符串內容。如果沒有這個字符,這個模式將匹配出現在字符串任意位置上的 `M`,而這并不是你想要的。你想確認的是:字符串中是否出現字符 `M`,如果出現,則必須是在字符串的開始。`M?` 可選地匹配單個字符 `M`,由于它最多可重復出現三次,你可以在一行中匹配 0 次到 3 次字符 `M`。`$` 字符限制模式只能夠在一個字符串的結尾匹配。當和模式開頭的字符 `^` 結合使用時,這意味著模式必須匹配整個串,并且在在字符 `M` 的前后都不能夠出現其他的任意字符。 |
| \[2\] | `re` 模塊的關鍵是一個 `search` 函數,該函數有兩個參數,一個是正則表達式 (`pattern`),一個是字符串 (`'M'`),函數試圖匹配正則表達式。如果發現一個匹配,`search` 函數返回一個擁有多種方法可以描述這個匹配的對象,如果沒有發現匹配,`search` 函數返回一個 `None`,一個 Python 空值 (null value)。你此刻關注的唯一事情,就是模式是否匹配上,于是我們利用 `search` 函數的返回值了解這個事實。字符串`'M'` 匹配上這個正則表達式,因為第一個可選的 `M` 匹配上,而第二個和第三個 `M` 被忽略掉了。 |
| \[3\] | `'MM'` 能匹配上是因為第一和第二個可選的 `M` 匹配上,而忽略掉第三個 `M`。 |
| \[4\] | `'MMM'` 能匹配上因為三個 `M` 都匹配上了。 |
| \[5\] | `'MMMM'` 沒有匹配上。因為所有的三個 `M` 都匹配完了,但是正則表達式還有字符串尾部的限制 (由于字符 `$`),而字符串又沒有結束 (因為還有第四個 `M` 字符),因此 `search` 函數返回一個 `None`。 |
| \[6\] | 有趣的是,一個空字符串也能夠匹配這個正則表達式,因為所有的字符 `M` 都是可選的。 |
## 7.3.2.?校驗百位數
與千位數相比,百位數識別起來要困難得多,這是因為有多種相互獨立的表達方式都可以表達百位數,而具體用那種方式表達和具體的數值有關。
* `100` = `C`
* `200` = `CC`
* `300` = `CCC`
* `400` = `CD`
* `500` = `D`
* `600` = `DC`
* `700` = `DCC`
* `800` = `DCCC`
* `900` = `CM`
因此有四種可能的模式:
* `CM`
* `CD`
* 零到三次出現 `C` 字符 (出現零次表示百位數為 0)
* `D`,后面跟零個到三個 `C` 字符
后面兩個模式可以結合到一起:
* 一個可選的字符 `D`,加上零到 3 個 `C` 字符。
這個例子顯示如何有效地識別羅馬數字的百位數。
## 例?7.4.?檢驗百位數
```
>>> import re
>>> pattern = '^M?M?M?(CM|CD|D?C?C?C?)$'
>>> re.search(pattern, 'MCM')
<SRE_Match object at 01070390>
>>> re.search(pattern, 'MD')
<SRE_Match object at 01073A50>
>>> re.search(pattern, 'MMMCCC')
<SRE_Match object at 010748A8>
>>> re.search(pattern, 'MCMC')
>>> re.search(pattern, '')
<SRE_Match object at 01071D98>
```
| | |
| --- | --- |
| \[1\] | 這個模式的首部和上一個模式相同,檢查字符串的開始 (`^`),接著匹配千位數 (`M?M?M?`),然后才是這個模式的新內容。在括號內,定義了包含有三個互相獨立的模式集合,由垂直線隔開:`CM`、`CD` 和 `D?C?C?C?` (`D`是可選字符,接著是 0 到 3 個可選的 `C` 字符)。正則表達式解析器依次檢查這些模式 (從左到右),如果匹配上第一個模式,則忽略剩下的模式。 |
| \[2\] | `'MCM'` 匹配上,因為第一個 `M` 字符匹配,第二和第三個 `M` 字符被忽略掉,而 `CM` 匹配上 (因此 `CD` 和 `D?C?C?C?` 兩個模式不再考慮)。`MCM` 表示羅馬數字`1900`。 |
| \[3\] | `'MD'` 匹配上,因為第一個字符 `M` 匹配上,第二第三個 `M` 字符忽略,而模式 `D?C?C?C?` 匹配上 `D` (模式中的三個可選的字符 `C` 都被忽略掉了)。`MD` 表示羅馬數字 `1500`。 |
| \[4\] | `'MMMCCC'` 匹配上,因為三個 `M` 字符都匹配上,而模式 `D?C?C?C?` 匹配上 `CCC` (字符`D`是可選的,此處忽略)。`MMMCCC` 表示羅馬數字 `3300`。 |
| \[5\] | `'MCMC'` 沒有匹配上。第一個 `M` 字符匹配上,第二第三個 `M` 字符忽略,接著是 `CM` 匹配上,但是接著是 `$` 字符沒有匹配,因為字符串還沒有結束 (你仍然還有一個沒有匹配的`C`字符)。`C` 字符也_不_ 匹配模式 `D?C?C?C?` 的一部分,因為與之相互獨立的模式 `CM` 已經匹配上。 |
| \[6\] | 有趣的是,一個空字符串也可以匹配這個模式,因為所有的 `M` 字符都是可選的,它們都被忽略,并且一個空字符串可以匹配 `D?C?C?C?` 模式,此處所有的字符也都是可選的,并且都被忽略。 |
哎呀!看看正則表達式能夠多快變得難以理解?你僅僅表示了羅馬數字的千位和百位上的數字。如果你根據類似的方法,十位數和各位數就非常簡單了,因為是完全相同的模式。讓我們來看表達這個模式的另一種方式吧。
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件