# 8.8.?`dialect.py` 介紹
`Dialectizer` 是 `BaseHTMLProcessor` 的簡單 (和拙劣) 的派生類。它通過一系列的替換對文本塊進行了處理,但是它確保在 ``<pre>`...`</pre>`` 塊之間的任何東西不被修改地通過。
為了處理 `<pre>` 塊,我們在 `Dialectizer` 中定義了兩個方法:`start_pre` 和 `end_pre`。
## 例?8.17.?處理特別標記
```
def start_pre(self, attrs):
self.verbatim += 1
self.unknown_starttag("pre", attrs)
def end_pre(self):
self.unknown_endtag("pre")
self.verbatim -= 1
```
| | |
| --- | --- |
| \[1\] | 每當 `SGMLParser` 在 HTML 源代碼中發現一個 `<pre>` 時,都會調用 `start_pre`。(馬上我們就會確切地看到它是如何發生的。) 這個方法使用單個參數:`attrs`,這個參數會包含標記的屬性 (如果存在的話) 。`attrs` 是一個鍵/值 tuple 的 list,就像 [`unknown_starttag`](dictionary_based_string_formatting.html#dialect.unknownstarttag "例?8.14.?BaseHTMLProcessor.py 中的基于 dictionary 的字符串格式化") 中所使用的。 |
| \[2\] | 在 `reset` 方法中,我們初始化了一個數據屬性,它作為 `<pre>` 標記的一個計數器。每當我們找到一個 `<pre>` 標記,我們增加計數器的值;每當我們找到一個 `</pre>` 標記,我們將減少計數器的值。(我們本可以把它實現為一個標志,即或把它設為 `1`,或重置為 `0`,但這樣做只是為了方便,并且這樣做可以處理古怪 (但有可能) 的 `<pre>` 標記嵌套的情況。) 馬上我們將會看到這個計數器是多么的好用。 |
| \[3\] | 不錯,這就是我們對 `<pre>` 標記所做的唯一的特殊處理。現在我們將屬性列表傳給 `unknown_starttag`,由它來進行缺省的處理。 |
| \[4\] | 每當 `SGMLParser` 找到一個 `</pre>` 標記時,會調用 `end_pre`。因為結束標記不能包含屬性,因此這個方法沒有參數。 |
| \[5\] | 首先我們要進行缺省處理,就像其它結束標記做的一樣。 |
| \[6\] | 其次我們將計數器減少,標記這個 `<pre>` 塊已經被關閉了。 |
到了這個地方,有必要對 `SGMLParser` 更深入一層。我已經多次聲明 (到目前為止您應已經把它做為信條了) ,就是 `SGMLParser` 查找每一個標記并且如果存在特定的方法就調用它們。例如:我們剛剛看到處理 `<pre>` 和 `</pre>` 的 `start_pre` 和 `end_pre` 的定義。但這是如何發生的呢?嗯,也沒什么神奇的,只不過是出色的 Python 編碼。
## 例?8.18.?`SGMLParser`
```
def finish_starttag(self, tag, attrs):
try:
method = getattr(self, 'start_' + tag)
except AttributeError:
try:
method = getattr(self, 'do_' + tag)
except AttributeError:
self.unknown_starttag(tag, attrs)
return -1
else:
self.handle_starttag(tag, method, attrs)
return 0
else:
self.stack.append(tag)
self.handle_starttag(tag, method, attrs)
return 1
def handle_starttag(self, tag, method, attrs):
method(attrs)
```
| | |
| --- | --- |
| \[1\] | 此處,`SGMLParser` 已經找到了一個開始標記,并且分析出屬性列表。唯一要做的事情就是檢查對于這個標記是否存在一個特別的處理方法,否則我們就應該求助于缺省方法 (`unknown_starttag`) 。 |
| \[2\] | `SGMLParser` 的 “神奇” 之處除了我們的老朋友 [`getattr`](../power_of_introspection/getattr.html "4.4.?通過 getattr 獲取對象引用") 之外就沒有什么了。您以前可能沒注意到,`getattr` 將查找定義在一個對象的繼承者中或對象自身的方法。這里對象是 `self`,即當前實例。所以,如果 `tag` 是 `'pre'`,這里對 `getattr` 的調用將會在當前實例 (它是 `Dialectizer` 類的一個實例) 中查找一個名為 `start_pre` 的方法。 |
| \[3\] | 如果 `getattr` 所查找的方法在對象或它的任何繼承者中不存在的話,它會引發一個 `AttributeError` 的異常。但沒有關系,因為我們把對 `getattr` 的調用包裝到一個 [`try...except`](../file_handling/index.html#fileinfo.exception "6.1.?異常處理") 塊中了,并且顯式地捕捉 `AttributeError` 異常。 |
| \[4\] | 因為我們沒有找到一個 `start_xxx` 方法,在放棄之前,我們將還要查找一個 `do_xxx` 方法。這個可替換的命名模式一般用于單獨的標記,如 `<br>`,這些標記沒有相應的結束標記。但是您可以使用任何一種模式,正如您看到的,`SGMLParser` 對每個標記嘗試兩次。(您不應該對相同的標記同時定義 `start_xxx` 和 `do_xxx` 處理方法,因為這樣的話只有 `start_xxx` 方法會被調用。) |
| \[5\] | 另一個 `AttributeError` 異常,它是說用 `do_xxx` 來調用 `getattr` 失敗了。因為對同一個標記我們既沒有找到 `start_xxx` 也沒有找到 `do_xxx` 處理方法,這樣我們捕捉到了異常并且求助于缺省方法:`unknown_starttag`。 |
| \[6\] | 記得嗎?`try...except` 塊可以有一個 `else` 子句,當在 `try...except` 塊中[沒有異常被引發](../file_handling/index.html#crossplatform.example "例?6.2.?支持特定平臺功能")時,它將被調用。邏輯上,意味著我們_確實_ 找到了這個標記的 `do_xxx` 方法,所以我們將要調用它。 |
| \[7\] | 順便說,不要為這些不同的返回值而擔心;理論上他們有意義,但實際上它們沒有任何用處。也不要擔心 `self.stack.append(tag)` ; `SGMLParser` 內部會知曉您的開始標記是否有合適的結束標記與之匹配,但是它不會對這些信息做任何操作。理論上,您能使用這個模塊校驗您的標記是否完全匹配,但是這或許沒有多大價值,并且這樣的內容已經超出了本章所要討論的范疇。現在有您更需要擔心的問題。 |
| \[8\] | `start_xxx` 和 `do_xxx` 方法并不被直接調用;標記名、方法和屬性被傳給 `handle_starttag` 這個方法,以便繼承者可以覆蓋它,并改變_全部_ 開始標記分發的方式。我們不需要控制這個層面,所以我們只讓這個方法做它自已的事,就是用屬性 list 來調用方法 (`start_xxx` 或 `do_xxx`) 。記住 `method` 是一個從 `getattr` 返回的函數,而函數是對象。(我知道您已經聽膩了,我發誓,一旦我們停止尋找新的使用方法來為我們服務時,我就決不再提它了。) 這時,函數對象作為一個參數傳入這個分發方法,這個方法反過來再調用這個函數。在這里,我們不需要知道函數是什么,叫什么名字,或是在哪時定義的;我們只需要知道用一個參數 `attrs` 調用它。 |
現在回到我們已經計劃好的程序:`Dialectizer`。當我們跑題時,我們定義了特別的處理方法來處理 `<pre>` 和 `</pre>` 標記。還有一件事沒有做,那就是用我們預定義的替換處理來處理文本塊。為了實現它,我們需要覆蓋 `handle_data` 方法。
## 例?8.19.?覆蓋 `handle_data` 方法
```
def handle_data(self, text):
self.pieces.append(self.verbatim and text or self.process(text))
```
| | |
| --- | --- |
| \[1\] | `handle_data` 在調用時只使用一個參數:要處理的文本。 |
| \[2\] | 在祖先類 [`BaseHTMLProcessor`](basehtmlprocessor.html#dialect.basehtml.intro "例?8.8.?BaseHTMLProcessor 介紹") 中,`handle_data` 方法只是將文本追加到輸出緩沖區 `self.pieces` 之后。這里的邏輯稍微有點復雜。如果我們處于 ``<pre>`...`</pre>`` 塊的中間,`self.verbatim` 將是大于 `0` 的某個值,接著我們想要將文本不作改動地傳入輸出緩沖區。否則,我們將調用另一個單獨的方法來進行替換處理,然后將處理結果放入輸出緩沖區中。在 Python 中,這是一個一行代碼,它使用了[`and-or` 技巧](../power_of_introspection/and_or.html#apihelper.andortrick.intro "例?4.17.?and-or 技巧介紹")。 |
我們已經接近了對 `Dialectizer` 的全面理解。唯一缺少的一個環節是文本替換的特性。如果您知道點 Perl,您就會知道當需要復雜的文本替換時,唯一有效的解決方法就是正則表達式。在 `dialect.py` 文件后面的幾個類中定義了一連串的正則表達式來操作 HTML 標記中的文本。我們已經學習過了[正則表達式中的所有字符](../regular_expressions/index.html "第?7?章?正則表達式")。我們不必重復學習正則表達式的艱難歷程了,不是嗎?上帝知道我反正不需要。我想現在這章您已經學得差不多了。
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件