# 7.4.?使用 `{n,m}` 語法
* 7.4.1\. 校驗十位數和個位數
在[前面的章節](roman_numerals.html "7.3.?個案研究:羅馬字母"),你處理了相同字符可以重復三次的情況。在正則表達式中,有另外一個方式來表達這種情況,并且能提高代碼的可讀性。首先看看我們在前面的例子中使用的方法。
## 例?7.5.?老方法:每一個字符都是可選的
```
>>> import re
>>> pattern = '^M?M?M?$'
>>> re.search(pattern, 'M')
<_sre.SRE_Match object at 0x008EE090>
>>> pattern = '^M?M?M?$'
>>> re.search(pattern, 'MM')
<_sre.SRE_Match object at 0x008EEB48>
>>> pattern = '^M?M?M?$'
>>> re.search(pattern, 'MMM')
<_sre.SRE_Match object at 0x008EE090>
>>> re.search(pattern, 'MMMM')
>>>
```
| | |
| --- | --- |
| \[1\] | 這個模式匹配串的開始,接著是第一個可選的字符 `M`,第二第三個 `M` 字符則被忽略 (這是可行的,因為它們都是可選的),最后是字符串的結尾。 |
| \[2\] | 這個模式匹配串的開始,接著是第一和第二個可選字符 `M`,而第三個 `M` 字符被忽略 (這是可行的,因為它們都是可選的),最后匹配字符串的結尾。 |
| \[3\] | 這個模式匹配字符串的開始,接著匹配所有的三個可選字符 `M`,最后匹配字符串的結尾。 |
| \[4\] | 這個模式匹配字符串的開始,接著匹配所有的三個可選字符 `M`,但是不能夠匹配字符串的結尾 (因為還有一個未匹配的字符 `M`),因此不能夠匹配而返回一個 `None`。 |
## 例?7.6.?一個新的方法:從 `n` 到 `m`
```
>>> pattern = '^M{0,3}$'
>>> re.search(pattern, 'M')
<_sre.SRE_Match object at 0x008EEB48>
>>> re.search(pattern, 'MM')
<_sre.SRE_Match object at 0x008EE090>
>>> re.search(pattern, 'MMM')
<_sre.SRE_Match object at 0x008EEDA8>
>>> re.search(pattern, 'MMMM')
>>>
```
| | |
| --- | --- |
| \[1\] | 這個模式意思是說:“匹配字符串的開始,接著匹配 0 到 3 個 `M` 字符,然后匹配字符串的結尾。”這里的 0 和 3 可以改成其它任何數字;如果你想要匹配至少 1 次,至多 3 次字符 `M`,則可以寫成 `M{1,3}`。 |
| \[2\] | 這個模式匹配字符串的開始,接著匹配三個可選 `M` 字符中的一個,最后是字符串的結尾。 |
| \[3\] | 這個模式匹配字符串的開始,接著匹配三個可選 `M` 字符中的兩個,最后是字符串的結尾。 |
| \[4\] | 這個模式匹配字符串的開始,接著匹配三個可選 `M` 字符中的三個,最后是字符串的結尾。 |
| \[5\] | 這個模式匹配字符串的開始,接著匹配三個可選 `M` 字符中的三個,但是_沒有匹配上_ 字符串的結尾。正則表達式在字符串結尾之前最多只允許匹配三次 `M` 字符,但是實際上有四個 `M` 字符,因此模式沒有匹配上這個字符串,返回一個 `None`。 |
> 注意
> 沒有一個輕松的方法來確定兩個正則表達式是否等價。你能采用的最好的辦法就是列出很多的測試樣例,確定這兩個正則表達式對所有的相關輸入都有相同的輸出。在本書后面的章節,將更多地討論如何編寫測試樣例。
## 7.4.1.?校驗十位數和個位數
現在我們來擴展一下關于羅馬數字的正則表達式,以匹配十位數和個位數,下面的例子展示十位數的校驗方法。
## 例?7.7.?校驗十位數
```
>>> pattern = '^M?M?M?(CM|CD|D?C?C?C?)(XC|XL|L?X?X?X?)$'
>>> re.search(pattern, 'MCMXL')
<_sre.SRE_Match object at 0x008EEB48>
>>> re.search(pattern, 'MCML')
<_sre.SRE_Match object at 0x008EEB48>
>>> re.search(pattern, 'MCMLX')
<_sre.SRE_Match object at 0x008EEB48>
>>> re.search(pattern, 'MCMLXXX')
<_sre.SRE_Match object at 0x008EEB48>
>>> re.search(pattern, 'MCMLXXXX')
>>>
```
| | |
| --- | --- |
| \[1\] | 這個模式匹配字符串的開始,接著是第一個可選字符 `M`,接著是 `CM`,接著 `XL`,接著是字符串的結尾。請記住,`(A|B|C)` 這個語法的含義是“精確匹配 A、B 或者 C 其中的一個”。此處匹配了 `XL`,因此不再匹配 `XC` 和 `L?X?X?X?`,接著就匹配到字符串的結尾。`MCML` 表示羅馬數字 `1940`。 |
| \[2\] | 這個模式匹配字符串的開始,接著是第一個可選字符 `M`,接著是 `CM`,接著 `L?X?X?X?`。在模式 `L?X?X?X?` 中,它匹配 `L` 字符并且跳過所有可選的 `X` 字符,接著匹配字符串的結尾。`MCML` 表示羅馬數字 `1950`。 |
| \[3\] | 這個模式匹配字符串的開始,接著是第一個可選字符 `M`,接著是 `CM`,接著是可選的 `L` 字符和可選的第一個 `X` 字符,并且跳過第二第三個可選的 `X` 字符,接著是字符串的結尾。`MCMLX` 表示羅馬數字 `1960`。 |
| \[4\] | 這個模式匹配字符串的開始,接著是第一個可選字符 `M`,接著是 `CM`,接著是可選的 `L` 字符和所有的三個可選的 `X` 字符,接著匹配字符串的結尾。`MCMLXXX` 表示羅馬數字 `1980`。 |
| \[5\] | 這個模式匹配字符串的開始,接著是第一個可選字符`M`,接著是`CM`,接著是可選的 `L`字符和所有的三個可選的`X`字符,接著就_未能匹配_ 字符串的結尾ie,因為還有一個未匹配的`X` 字符。所以整個模式匹配失敗并返回一個 `None`. `MCMLXXXX` 不是一個有效的羅馬數字。 |
對于個位數的正則表達式有類似的表達方式,我將省略細節,直接展示結果。
```
>>> pattern = '^M?M?M?(CM|CD|D?C?C?C?)(XC|XL|L?X?X?X?)(IX|IV|V?I?I?I?)$'
```
用另一種 `{n,m}` 語法表達這個正則表達式會如何呢?這個例子展示新的語法。
## 例?7.8.?用 `{n,m}` 語法確認羅馬數字
```
>>> pattern = '^M{0,3}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$'
>>> re.search(pattern, 'MDLV')
<_sre.SRE_Match object at 0x008EEB48>
>>> re.search(pattern, 'MMDCLXVI')
<_sre.SRE_Match object at 0x008EEB48>
>>> re.search(pattern, 'MMMDCCCLXXXVIII')
<_sre.SRE_Match object at 0x008EEB48>
>>> re.search(pattern, 'I')
<_sre.SRE_Match object at 0x008EEB48>
```
| | |
| --- | --- |
| \[1\] | 這個模式匹配字符串的開始,接著匹配三個可選的 `M` 字符的一個,接著匹配 `D?C{0,3}`,此處,僅僅匹配可選的字符 `D` 和 0 個可選字符 `C`。繼續向前匹配,匹配 `L?X{0,3}`,此處,匹配可選的 `L` 字符和 0 個可選字符 `X`,接著匹配 `V?I{0,3}`,此處,匹配可選的 V 和 0 個可選字符 `I`,最后匹配字符串的結尾。`MDLV` 表示羅馬數字 `1555`。 |
| \[2\] | 這個模式匹配字符串的開始,接著是三個可選的 `M` 字符的兩個,接著匹配 `D?C{0,3}`,此處為一個字符 `D` 和三個可選 `C` 字符中的一個,接著匹配 `L?X{0,3}`,此處為一個 `L` 字符和三個可選 `X` 字符中的一個,接著匹配 `V?I{0,3}`,此處為一個字符 `V` 和三個可選 `I` 字符中的一個,接著匹配字符串的結尾。`MMDCLXVI` 表示羅馬數字 `2666`。 |
| \[3\] | 這個模式匹配字符串的開始,接著是三個可選的 `M` 字符的所有字符,接著匹配 `D?C{0,3}`,此處為一個字符 `D` 和三個可選 `C` 字符中所有字符,接著匹配 `L?X{0,3}`,此處為一個 `L` 字符和三個可選 `X` 字符中所有字符,接著匹配 `V?I{0,3}`,此處為一個字符 `V` 和三個可選 `I` 字符中所有字符,接著匹配字符串的結尾。`MMMDCCCLXXXVIII` 表示羅馬數字`3888`,這個數字是不用擴展語法可以寫出的最大的羅馬數字。 |
| \[4\] | 仔細看哪!(我像一個魔術師一樣,“看仔細嘍,孩子們,我將要從我的帽子中拽出一只兔子來啦!”) 這個模式匹配字符串的開始,接著匹配 3 個可選 `M` 字符的 0 個,接著匹配 `D?C{0,3}`,此處,跳過可選字符 `D` 并匹配三個可選 `C` 字符的 0 個,接著匹配 `L?X{0,3}`,此處,跳過可選字符 `L` 并匹配三個可選 `X` 字符的 0 個,接著匹配 `V?I{0,3}`,此處跳過可選字符 `V` 并匹配三個可選 `I` 字符的一個,最后匹配字符串的結尾。哇賽! |
如果你在第一遍就跟上并理解了所講的這些,那么你做的比我還要好。現在,你可以嘗試著理解別人大規模程序里關鍵函數中的正則表達式了。或者想象著幾個月后回頭理解你自己的正則表達式。我曾經做過這樣的事情,但是它并不是那么有趣。
在下一節里,你將會研究另外一種正則表達式語法,它可以使你的表達式具有更好的可維持性。
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件