# 7.2.?個案研究:街道地址
這一系列的例子是由我幾年前日常工作中的現實問題啟發而來的,當時我需要從一個老化系統中導出街道地址,在將它們導入新的系統之前,進行清理和標準化。(看,我不是只將這些東西堆到一起,它有實際的用處。)這個例子展示我如何處理這個問題。
## 例?7.1.?在字符串的結尾匹配
```
>>> s = '100 NORTH MAIN ROAD'
>>> s.replace('ROAD', 'RD.')
'100 NORTH MAIN RD.'
>>> s = '100 NORTH BROAD ROAD'
>>> s.replace('ROAD', 'RD.')
'100 NORTH BRD. RD.'
>>> s[:-4] + s[-4:].replace('ROAD', 'RD.')
'100 NORTH BROAD RD.'
>>> import re
>>> re.sub('ROAD$', 'RD.', s)
'100 NORTH BROAD RD.'
```
| | |
| --- | --- |
| \[1\] | 我的目標是將街道地址標準化,`'ROAD'` 通常被略寫為 `'RD.'`。乍看起來,我以為這個太簡單了,只用字符串的方法 `replace` 就可以了。畢竟,所有的數據都已經是大寫的了,因此大小寫不匹配將不是問題。并且,要搜索的串`'ROAD'`是一個常量,在這個迷惑的簡單例子中,`s.replace` 的確能夠勝任。 |
| \[2\] | 不幸的是,生活充滿了特例,并且我很快就意識到這個問題。比如:`'ROAD'` 在地址中出現兩次,一次是作為街道名稱 `'BROAD'` 的一部分,一次是作為 `'ROAD'` 本身。`replace` 方法遇到這兩處的`'ROAD'`并沒有區別,因此都進行了替換,而我發現地址被破壞掉了。 |
| \[3\] | 為了解決在地址中出現多次`'ROAD'`子串的問題,有可能采用類似這樣的方法:只在地址的最后四個字符中搜索替換 `'ROAD'` (s[-4:]),忽略字符串的其他部分 (s[:-4])。但是,你可能發現這已經變得不方便了。例如,該模式依賴于你要替換的字符串的長度了 (如果你要把 `'STREET'` 替換為 `'ST.'`,你需要利用 `s[:-6]` 和 `s[-6:].replace(...)`)。你愿意在六月個期間回來調試它們么?我本人是不愿意的。 |
| \[4\] | 是時候轉到正則表達式了。在 Python 中,所有和正則表達式相關的功能都包含在 `re` 模塊中。 |
| \[5\] | 來看第一個參數:`'ROAD$'`。這個正則表達式非常簡單,只有當 `'ROAD'` 出現在一個字符串的尾部時才會匹配。字符`$`表示“字符串的末尾”(還有一個對應的字符,尖號`^`,表示“字符串的開始”)。 |
| \[6\] | 利用 `re.sub` 函數,對字符串 `s` 進行搜索,滿足正則表達式 `'ROAD$'` 的用 `'RD.'` 替換。這樣將匹配字符串 `s` 末尾的 `'ROAD'`,而不會匹配屬于單詞 `'ROAD'` 一部分的 `'ROAD'`,這是因為它是出現在 `s` 的中間。 |
繼續我的清理地址的故事。很快我發現,在上面的例子中,僅僅匹配地址末尾的 `'ROAD'` 不是很好,因為不是所有的地址都包括表示街道的單詞 (`'ROAD'`);有一些直接以街道名結尾。大部分情況下,不會遇到這種情況,但是,如果街道名稱為 `'BROAD'`,那么正則表達式將會匹配 `'BROAD'` 的一部分為 `'ROAD'`,而這并不是我想要的。
## 例?7.2.?匹配整個單詞
```
>>> s = '100 BROAD'
>>> re.sub('ROAD$', 'RD.', s)
'100 BRD.'
>>> re.sub('\\bROAD$', 'RD.', s)
'100 BROAD'
>>> re.sub(r'\bROAD$', 'RD.', s)
'100 BROAD'
>>> s = '100 BROAD ROAD APT. 3'
>>> re.sub(r'\bROAD$', 'RD.', s)
'100 BROAD ROAD APT. 3'
>>> re.sub(r'\bROAD\b', 'RD.', s)
'100 BROAD RD. APT 3'
```
| | |
| --- | --- |
| \[1\] | 我真正想要做的是,當 `'ROAD'` 出現在字符串的末尾,并且是作為一個獨立的單詞時,而不是一些長單詞的一部分,才對他進行匹配。為了在正則表達式中表達這個意思,你利用 `\b`,它的含義是“單詞的邊界必須在這里”。在 Python 中,由于字符 `'\'` 在一個字符串中必須轉義,這會變得非常麻煩。有時候,這類問題被稱為“反斜線災難”,這也是 Perl 中正則表達式比 Python 的正則表達式要相對容易的原因之一。另一方面,Perl 也混淆了正則表達式和其他語法,因此,如果你發現一個 bug,很難弄清楚究竟是一個語法錯誤,還是一個正則表達式錯誤。 |
| \[2\] | 為了避免反斜線災難,你可以利用所謂的“原始字符串”,只要為字符串添加一個前綴 `r` 就可以了。這將告訴 Python,字符串中的所有字符都不轉義;`'\t'` 是一個制表符,而 `r'\t'` 是一個真正的反斜線字符 `'\'`,緊跟著一個字母 `'t'`。我推薦只要處理正則表達式,就使用原始字符串;否則,事情會很快變得混亂 (并且正則表達式自己也會很快被自己搞亂了)。 |
| \[3\] | (一聲嘆息) 很不幸,我很快發現更多的與我的邏輯相矛盾的例子。在這個例子中,街道地址包含有作為整個單詞的`'ROAD'`,但是它不是在末尾,因為地址在街道命名后會有一個房間號。由于 `'ROAD'` 不是在每一個字符串的末尾,沒有匹配上,因此調用 `re.sub` 沒有替換任何東西,你獲得的只是初始字符串,這也不是我們想要的。 |
| \[4\] | 為了解決這個問題,我去掉了 `$` 字符,加上另一個 `\b`。現在,正則表達式“匹配字符串中作為整個單詞出現的`'ROAD'`”了,不論是在末尾、開始還是中間。 |
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件