# 8.4.?`BaseHTMLProcessor.py` 介紹
`SGMLParser` 自身不會產生任何結果。它只是分析,分析,再分析,對于它找到的有趣的東西會調用相應的一個方法,但是這些方法什么都不做。`SGMLParser` 是一個 HTML _消費者 (consumer)_:它接收 HTML,將其分解成小的、結構化的小塊。正如您所看到的,在[前一節](extracting_data.html "8.3.?從 HTML 文檔中提取數據")中,您可以定義 `SGMLParser` 的子類,它可以捕捉特別標記和生成有用的東西,如一個網頁中所有鏈接的一個列表。現在我們將沿著這條路更深一步。我們要定義一個可以捕捉 `SGMLParser` 所丟出來的所有東西的一個類,接著重建整個 HTML 文檔。用技術術語來說,這個類將是一個 HTML _生產者 (producer)_。
`BaseHTMLProcessor` 子類化 `SGMLParser`,并且提供了全部的 8 個處理方法:`unknown_starttag`、`unknown_endtag`、`handle_charref`、`handle_entityref`、`handle_comment`、`handle_pi`、`handle_decl` 和 `handle_data`。
## 例?8.8.?`BaseHTMLProcessor` 介紹
```
class BaseHTMLProcessor(SGMLParser):
def reset(self):
self.pieces = []
SGMLParser.reset(self)
def unknown_starttag(self, tag, attrs):
strattrs = "".join([' %s="%s"' % (key, value) for key, value in attrs])
self.pieces.append("<%(tag)s%(strattrs)s>" % locals())
def unknown_endtag(self, tag):
self.pieces.append("</%(tag)s>" % locals())
def handle_charref(self, ref):
self.pieces.append("&#%(ref)s;" % locals())
def handle_entityref(self, ref):
self.pieces.append("&%(ref)s" % locals())
if htmlentitydefs.entitydefs.has_key(ref):
self.pieces.append(";")
def handle_data(self, text):
self.pieces.append(text)
def handle_comment(self, text):
self.pieces.append("<!--%(text)s-->" % locals())
def handle_pi(self, text):
self.pieces.append("<?%(text)s>" % locals())
def handle_decl(self, text):
self.pieces.append("<!%(text)s>" % locals())
```
| | |
| --- | --- |
| \[1\] | `reset` 由 `SGMLParser.__init__` 來調用。在[調用父類方法](../object_oriented_framework/defining_classes.html#fileinfo.init.code.example "例?5.6.?編寫 FileInfo 類")之前將 `self.pieces` 初始化為空列表。`self.pieces` 是一個[數據屬性](../object_oriented_framework/userdict.html#fileinfo.userdict.init.example "例?5.9.?定義 UserDict 類"),將用來保存將要構造的 HTML 文檔的片段。每個處理器方法都將重構 `SGMLParser` 所分析出來的 HTML,并且每個方法將生成的字符串追加到 `self.pieces` 之后。注意,`self.pieces` 是一個 list。也許您想將它定義為一個字符串,然后不停地將每個片段追加到它的后面。這樣做是可以的,但是 Python 在處理 list 方面效率更高一些。 \[5\] |
| \[2\] | 因為 `BaseHTMLProcessor` 沒有為特別標記定義方法 (如在 [`URLLister`](extracting_data.html#dialect.extract.links "例?8.6.?urllister.py 介紹") 中的`start_a` 方法), `SGMLParser` 將對每一個開始標記調用 `unknown_starttag` 方法。這個方法接收標記 (`tag`) 和屬性的名字/值對的 list(`attrs`) 兩參數,重新構造初始的 HTML,接著將結果追加到 `self.pieces` 后。 這里的[字符串格式化](../native_data_types/formatting_strings.html "3.5.?格式化字符串")有些陌生,我們將留到下一節再說明。 |
| \[3\] | 重構結束標記要簡單得多,只是使用標記名字,把它包在 `</...>` 括號中。 |
| \[4\] | 當 `SGMLParser` 找到一個字符引用時,會用原始的引用來調用 `handle_charref`。如果 HTML 文檔包含 ` ` 這個引用,`ref` 將為 `160`。重構原始的完整的字符引用只要將 `ref` 包裝在 `&#...;` 字符中間。 |
| \[5\] | 實體引用同字符引用相似,但是沒有#號。重建原始的實體引用只要將 `ref` 包裝在 `&...;` 字符串中間。(實際上,一位博學的讀者曾經向我指出,除些之外還稍微有些復雜。僅有某種標準的 HTML 實體以一個分號結束;其它看上去差不多的實體并不如此。幸運的是,標準 HTML 實體集已經定義在 Python 的一個叫做 `htmlentitydefs` 的模塊中了。從而引出額外的 `if` 語句。) |
| \[6\] | 文本塊則簡單地不經修改地追加到 `self.pieces` 后。 |
| \[7\] | HTML 注釋包裝在 `<!--...-->` 字符中。 |
| \[8\] | 處理指令包裝在 `<?...>` 字符中。 |
> 重要
> HTML 規范要求所有非 HTML (像客戶端的 JavaScript) 必須包括在 HTML 注釋中,但不是所有的頁面都是這么做的 (而且所有的最新的瀏覽器也都容許不這樣做) 。`BaseHTMLProcessor` 不允許這樣,如果腳本嵌入得不正確,它將被當作 HTML 一樣進行分析。例如,如果腳本包含了小于和等于號,`SGMLParser` 可能會錯誤地認為找到了標記和屬性。`SGMLParser` 總是把標記名和屬性名轉換成小寫,這樣可能破壞了腳本,并且 `BaseHTMLProcessor` 總是用雙引號來將屬性封閉起來 (盡管原始的 HTML 文檔可能使用單引號或沒有引號) ,這樣必然會破壞腳本。應該總是將您的客戶端腳本放在 HTML 注釋中進行保護。
## 例?8.9.?`BaseHTMLProcessor` 輸出結果
```
def output(self):
"""Return processed HTML as a single string"""
return "".join(self.pieces)
```
| | |
| --- | --- |
| \[1\] | 這是在 `BaseHTMLProcessor` 中的一個方法,它永遠不會被父類 `SGMLParser` 所調用。因為其它的處理器方法將它們重構的 HTML 保存在 `self.pieces` 中,這個函數需要將所有這些片段連接成一個字符串。正如前面提到的,Python 在處理列表方面非常出色,但對于字符串處理就遜色了。所以我們只有在某人確實需要它時才創建完整的字符串。 |
| \[2\] | 如果您愿意,也可以換成使用 `string` 模塊的 `join` 方法:`string.join(self.pieces, "")`。 |
## 進一步閱讀
* W3C 討論了[字符和實體引用](http://www.w3.org/TR/REC-html40/charset.html#entities)。
* _Python Library Reference_ 解答了您的懷疑,即 [`htmlentitydefs` 模塊](http://www.python.org/doc/current/lib/module-htmlentitydefs.html)的確名符其實。
## Footnotes
\[5\] Python 處理 list 比字符串快的原因是:list 是可變的,但字符串是不可變的。這就是說向 list 進行追加只是增加元素和修改索引。因為字符串在創建之后不能被修改,像 `s = s + newpiece` 這樣的代碼將會從原值和新片段的連接結果中創建一個全新的字符串,然后丟棄原來的字符串。這樣就需要大量昂貴的內存管理,并且隨著字符串變長,所需要的開銷也在增長。所以在一個循環中執行 `s = s + newpiece` 非常不好。用技術術語來說,向一個 list 追加 `n` 個項的代價為 `O(n)`,而向一個字符串追加 `n` 個項的代價是 `O(n<sup>2</sup>)`。
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件