# 15.3.?重構
全面的單元測試帶來的最大好處不是你的全部測試用例最終通過時的成就感;也不是被責怪破壞了別人的代碼時能夠_證明_ 自己的自信。最大的好處是單元測試給了你自由去無情地重構。
重構是在可運行代碼的基礎上使之工作得更好的過程。通常,“更好”意味著“更快”,也可能意味著 “使用更少的內存”,或者 “使用更少的磁盤空間”,或者僅僅是“更優雅的代碼”。不管對你,對你的項目意味什么,在你的環境中,重構對任何程序的長期良性運轉都是重要的。
這里,“更好” 意味著 “更快”。更具體地說,`fromRoman` 函數可以更快,關鍵在于那個丑陋的、用于驗證羅馬數字有效性的正則表達式。嘗試不用正則表達式去解決是不值得的 (這樣做很難,而且可能也快不了多少),但可以通過預編譯正則表達式使函數提速。
## 例?15.10.?編譯正則表達式
```
>>> import re
>>> pattern = '^M?M?M?$'
>>> re.search(pattern, 'M')
<SRE_Match object at 01090490>
>>> compiledPattern = re.compile(pattern)
>>> compiledPattern
<SRE_Pattern object at 00F06E28>
>>> dir(compiledPattern)
['findall', 'match', 'scanner', 'search', 'split', 'sub', 'subn']
>>> compiledPattern.search('M')
<SRE_Match object at 01104928>
```
| | |
| --- | --- |
| \[1\] | 這是你看到過的 `re.search` 語法。把一個正則表達式作為字符串 (`pattern`) 并用這個字符串來匹配 (`'M'`)。如果能夠匹配,函數返回 一個 match 對象,可以用來確定匹配的部分和如何匹配的。 |
| \[2\] | 這里是一個新的語法:`re.compile` 把一個正則表達式作為字符串參數接受并返回一個 pattern 對象。注意這里沒去匹配字符串。編譯正則表達式和以特定字符串 (`'M'`) 進行匹配不是一回事,所牽扯的只是正則表達式本身。 |
| \[3\] | `re.compile` 返回的已編譯的 pattern 對象有幾個值得關注的功能:包括了幾個 `re` 模塊直接提供的功能 (比如:`search` 和 `sub`)。 |
| \[4\] | 用 `'M'` 作參數來調用已編譯的 pattern 對象的 `search` 函數與用正則表達式和字符串 `'M'` 調用 `re.search` 可以得到相同的結果,只是快了很多。 (事實上,`re.search` 函數僅僅將正則表達式編譯,然后為你調用編譯后的 pattern 對象的 `search` 方法。) |
> 注意
> 在需要多次使用同一個正則表達式的情況下,應該將它進行編譯以獲得一個 pattern 對象,然后直接調用這個 pattern 對象的方法。
## 例?15.11.?`roman81.py` 中已編譯的正則表達式
這個文件可以在例子目錄下的 `py/roman/stage8/` 目錄中找到。
如果您還沒有下載本書附帶的樣例程序, 可以 [下載本程序和其他樣例程序](http://www.woodpecker.org.cn/diveintopython/download/diveintopython-exampleszh-cn-5.4b.zip "Download example scripts")。
```
# toRoman and rest of module omitted for clarity
romanNumeralPattern = \
re.compile('^M?M?M?M?(CM|CD|D?C?C?C?)(XC|XL|L?X?X?X?)(IX|IV|V?I?I?I?)$')
def fromRoman(s):
"""convert Roman numeral to integer"""
if not s:
raise InvalidRomanNumeralError, 'Input can not be blank'
if not romanNumeralPattern.search(s):
raise InvalidRomanNumeralError, 'Invalid Roman numeral: %s' % s
result = 0
index = 0
for numeral, integer in romanNumeralMap:
while s[index:index+len(numeral)] == numeral:
result += integer
index += len(numeral)
return result
```
| | |
| --- | --- |
| \[1\] | 看起來很相似,但實質卻有很大改變。`romanNumeralPattern` 不再是一個字符串了,而是一個由 `re.compile` 返回的 pattern 對象。 |
| \[2\] | 這意味著你可以直接調用 `romanNumeralPattern` 的方法。這比每次調用 `re.search` 要快很多。模塊被首次導入 (import) 之時,正則表達式被一次編譯并存儲于 `romanNumeralPattern`。之后每次調用 `fromRoman` 時,你可以立刻以正則表達式匹配輸入的字符串,而不需要在重復背后的這些編譯的工作。 |
那么編譯正則表達式可以提速多少呢?你自己來看吧:
## 例?15.12.?用 `romantest81.py` 測試 `roman81.py` 的結果
```
............. ----------------------------------------------------------------------
Ran 13 tests in 3.385s OK
```
| | |
| --- | --- |
| \[1\] | 有一點說明一下:這里,我在運行單元測試時_沒有_ 使用 `-v` 選項,因此輸出的也不再是每個測試完整的 `doc string`,而是用一個圓點來表示每個通過的測試。(失敗的測試標用 `F` 表示,發生錯誤則用 `E` 表示,你仍舊可以獲得失敗和錯誤的完整追蹤信息以便查找問題所在。) |
| \[2\] | 運行 `13` 個測試耗時 `3.385` 秒,與之相比是沒有預編譯正則表達式時的 `3.685秒`。這是一個 `8%` 的整體提速,記住單元測試的大量時間實際上花在做其他工作上。(我單獨測試了正則表達式部分的耗時,不考慮單元測試的其他環節,正則表達式編譯可以讓匹配 `search` 平均提速 `54%`。)小小修改還真是值得。 |
| \[3\] | 對了,不必顧慮什么,預先編譯正則表達式并沒有破壞什么,你剛剛證實這一點。 |
我還想做另外一個性能優化工作。就正則表達式語法的復雜性而言,通常有不止一種方法來構造相同的表達式是不會令人驚訝的。在 [comp.lang.python](http://groups.google.com/groups?group=comp.lang.python) 上對該模塊進行一些討論后,有人建議我使用 `{_m_,_n_}` 語法來查找可選重復字符。
## 例?15.13.?`roman82.py`
這個文件可以在例子目錄下的 `py/roman/stage8/` 目錄中找到。
如果您還沒有下載本書附帶的樣例程序, 可以 [下載本程序和其他樣例程序](http://www.woodpecker.org.cn/diveintopython/download/diveintopython-exampleszh-cn-5.4b.zip "Download example scripts")。
```
# rest of program omitted for clarity
#old version
#romanNumeralPattern = \
# re.compile('^M?M?M?M?(CM|CD|D?C?C?C?)(XC|XL|L?X?X?X?)(IX|IV|V?I?I?I?)$')
#new version
romanNumeralPattern = \
re.compile('^M{0,4}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$')
```
| | |
| --- | --- |
| \[1\] | 你已經將 `M?M?M?M?` 替換為 `M{0,4}`。它們的含義相同:“匹配 0 到 4 個 `M` 字符”。類似地,`C?C?C?` 改成了 `C{0,3}` (“匹配 0 到 3 個 `C` 字符”) 接下來的 `X` 和 `I` 也一樣。 |
這樣的正則表達簡短一些 (雖然可讀性不太好)。核心問題是,是否能加快速度?
## 例?15.14.?以 `romantest82.py` 測試 `roman82.py` 的結果
```
.............
----------------------------------------------------------------------
Ran 13 tests in 3.315s OK
```
| | |
| --- | --- |
| \[1\] | 總體而言,這種正則表達使單元測試提速 2%。這不太令人振奮,但記住 `search` 函數只是整體單元測試的一個小部分,很多時間花在了其他方面。(我另外的測試表明這個應用了新語法的正則表達式使 `search` 函數提速 `11%` 。) 通過預先編譯和使用新語法重寫可以使正則表達式的性能提升超過 `60%`,令單元測試的整體性能提升超過 `10%`。 |
| \[2\] | 比任何的性能提升更重要的是模塊仍然運轉完好。這便是我早先提到的自由:自由地調整、修改或者重寫任何部分并且保證在此過程中沒有把事情搞得一團糟。這并不是給無休止地為了調整代碼而調整代碼以許可;你有很切實的目標 (“讓 `fromRoman` 更快”),而且你可以實現這個目標,不會因為考慮在改動過程中是否會引入新的 Bug 而有所遲疑。 |
還有另外一個我想做的調整,我保證這是最后一個,之后我會停下來,讓這個模塊歇歇。就像你多次看到的,正則表達式越晦澀難懂越快,我可不想在六個月內再回頭試圖維護它。是呀!測試用例通過了,我便知道它工作正常,但如果我搞不懂它是_如何_ 工作的,添加新功能、修正新 Bug,或者維護它都將變得很困難。正如你在 [第?7.5?節 “松散正則表達式”](../regular_expressions/verbose.html "7.5.?松散正則表達式") 看到的,Python 提供了逐行注釋你的邏輯的方法。
## 例?15.15.?`roman83.py`
該文件可以在例子目錄下的 `py/roman/stage8/` 目錄中找到。
如果您還沒有下載本書附帶的樣例程序, 可以 [下載本程序和其他樣例程序](http://www.woodpecker.org.cn/diveintopython/download/diveintopython-exampleszh-cn-5.4b.zip "Download example scripts")。
```
# rest of program omitted for clarity
#old version
#romanNumeralPattern = \
# re.compile('^M{0,4}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$')
#new version
romanNumeralPattern = re.compile('''
^ # beginning of string
M{0,4} # thousands - 0 to 4 M's
(CM|CD|D?C{0,3}) # hundreds - 900 (CM), 400 (CD), 0-300 (0 to 3 C's),
# or 500-800 (D, followed by 0 to 3 C's)
(XC|XL|L?X{0,3}) # tens - 90 (XC), 40 (XL), 0-30 (0 to 3 X's),
# or 50-80 (L, followed by 0 to 3 X's)
(IX|IV|V?I{0,3}) # ones - 9 (IX), 4 (IV), 0-3 (0 to 3 I's),
# or 5-8 (V, followed by 0 to 3 I's)
$ # end of string
''', re.VERBOSE)
```
| | |
| --- | --- |
| \[1\] | `re.compile` 函數的第二個參數是可選的,這個參數通過一個或一組標志 (flag) 來控制預編譯正則表達式的選項。這里你指定了 `re.VERBOSE` 選項,告訴 Python 正則表達式里有內聯注釋。注釋和它們周圍的空白_不_ 會被認做正則表達式的一部分,在編譯正則表達式時 `re.compile` 函數會忽略它們。這個新 “verbose” 版本與老版本完全一樣,只是更具可讀性。 |
## 例?15.16.?用 `romantest83.py` 測試 `roman83.py` 的結果
```
.............
----------------------------------------------------------------------
Ran 13 tests in 3.315s OK
```
| | |
| --- | --- |
| \[1\] | 新 “verbose” 版本和老版本的運行速度一樣。事實上,編譯的 pattern 對象也一樣,因為 `re.compile` 函數會剔除掉所有你添加的內容。 |
| \[2\] | 新 “verbose” 版本可以通過所有老版本通過的測試。什么都沒有改變,但在六個月后重讀該模塊的程序員卻有了理解功能如何實現的機會。 |
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件