# 8.2.?`sgmllib.py` 介紹
HTML 處理分成三步:將 HTML 分解成它的組成片段,對片段進行加工,接著將片段再重新合成 HTML。第一步是通過 `sgmllib.py` 來完成的,它是標準 Python 庫的一部分。
理解本章的關鍵是要知道 HTML 不只是文本,更是結構化文本。這種結構來源于開始與結束標記的或多或少分級序列。通常您并不以這種方式處理 HTML ,而是以_文本方式_ 在一個文本編輯中對其進行處理,或以_可視的方式_ 在一個瀏覽器中進行瀏覽或頁面編輯工具中進行編輯。`sgmllib.py` 表現出了 HTML 的_結構_。
`sgmllib.py` 包含一個重要的類:`SGMLParser`。`SGMLParser` 將 HTML 分解成有用的片段,比如開始標記和結束標記。在它成功地分解出某個數據為一個有用的片段后,它會根據所發現的數據,調用一個自身內部的方法。為了使用這個分析器,您需要子類化 `SGMLParser` 類,并且覆蓋這些方法。這就是當我說它表示了 HTML _結構_ 的意思:HTML 的結構決定了方法調用的次序和傳給每個方法的參數。
`SGMLParser` 將 HTML 分析成 8 類數據,然后對每一類調用單獨的方法:
開始標記 (Start tag)
是開始一個塊的 HTML 標記,像 `<html>`、`<head>`、`<body>` 或 `<pre>` 等,或是一個獨一的標記,像 `<br>` 或 `<img>` 等。當它找到一個開始標記 _`tagname`_,`SGMLParser` 將查找名為 `start__`tagname`_` 或 `do__`tagname`_` 的方法。例如,當它找到一個 `<pre>` 標記,它將查找一個 `start_pre` 或 `do_pre` 的方法。如果找到了,`SGMLParser` 會使用這個標記的屬性列表來調用這個方法;否則,它用這個標記的名字和屬性列表來調用 `unknown_starttag` 方法。
結束標記 (End tag)
是結束一個塊的 HTML 標記,像 `</html>`、`</head>`、`</body>` 或 `</pre>` 等。當找到一個結束標記時,`SGMLParser` 將查找名為 `end__`tagname`_` 的方法。如果找到,`SGMLParser` 調用這個方法,否則它使用標記的名字來調用 `unknown_endtag` 。
字符引用 (Character reference)
用字符的十進制或等同的十六進制來表示的轉義字符,像 ` `。當找到,`SGMLParser` 使用十進制或等同的十六進制字符文本來調用 `handle_charref` 。
實體引用 (Entity reference)
HTML 實體,像 `©`。當找到,`SGMLParser` 使用 HTML 實體的名字來調用 `handle_entityref` 。
注釋 (Comment)
HTML 注釋,包括在 `<!-- ... -->`之間。當找到,`SGMLParser` 用注釋內容來調用 `handle_comment`。
處理指令 (Processing instruction)
HTML 處理指令,包括在 `<? ... >` 之間。當找到,`SGMLParser` 用處理指令內容來調用 `handle_pi`。
聲明 (Declaration)
HTML 聲明,如 `DOCTYPE`,包括在 `<! ... >`之間。當找到,`SGMLParser` 用聲明內容來調用 `handle_decl`。
文本數據 (Text data)
文本塊。不滿足其它 7 種類別的任何東西。當找到,`SGMLParser` 用文本來調用 `handle_data`。
> 重要
> Python 2.0 存在一個 bug,即 `SGMLParser` 完全不能識別聲明 (`handle_decl` 永遠不會調用),這就意味著 `DOCTYPE` 被靜靜地忽略掉了。這個錯誤在 Python 2.1 中改正了。
`sgmllib.py` 所附帶的一個測試套件舉例說明了這一點。您可以運行 `sgmllib.py`,在命令行下傳入一個 HTML 文件的名字,然后它會在分析標記和其它元素的同時將它們打印出來。它的實現是通過子類化 `SGMLParser` 類,然后定義 `unknown_starttag`,`unknown_endtag`,`handle_data` 和其它方法來實現的。這些方法簡單地打印出它們的參數。
> 提示
> 在 Windows 下的 ActivePython IDE 中,您可以在 “Run script” 對話框中指定命令行參數。用空格將多個參數分開。
## 例?8.4.?`sgmllib.py` 的樣例測試
下面是一個片段,來自本書的 HTML 版本的目錄,toc.html。當然,您的存儲路徑可能與我的有所不同。 (如果您還沒有下載本書的 HTML 版本,可以從 [http://diveintopython.org/](http://diveintopython.org/) 下載。
```
c:\python23\lib> type "c:\downloads\diveintopython\html\toc\index.html"
<!DOCTYPE html
PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
<title>Dive Into Python</title>
<link rel="stylesheet" href="diveintopython.css" type="text/css">
... 略 ...
```
通過 `sgmllib.py` 的測試套件來運行它,會得到如下的輸出結果:
```
c:\python23\lib> python sgmllib.py "c:\downloads\diveintopython\html\toc\index.html"
data: '\n\n'
start tag: <html lang="en" >
data: '\n '
start tag: <head>
data: '\n '
start tag: <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" >
data: '\n \n '
start tag: <title>
data: 'Dive Into Python'
end tag: </title>
data: '\n '
start tag: <link rel="stylesheet" href="diveintopython.css" type="text/css" >
data: '\n '
... 略 ...
```
下面是本章其它部分的路標:
* 子類化 `SGMLParser` 來創建從 HTML 文檔中抽取感興趣的數據的類。
* 子類化 `SGMLParser` 來創建 `BaseHTMLProcessor`,它覆蓋了所有8個處理方法,然后使用它們從片段中重建原始的 HTML。
* 子類化 `BaseHTMLProcessor` 來創建 `Dialectizer`,它增加了一些方法,專門用來處理指定的 HTML 標記,然后覆蓋了 `handle_data` 方法,提供了用來處理 HTML 標記之間文本塊的框架。
* 子類化 `Dialectizer` 來創建定義了文本處理規則的類。這些規則被 `Dialectizer.handle_data` 使用。
* 編寫一個測試套件,它可以從 `http://diveintopython.org/` 處抓取一個真正的 web 頁面,然后處理它。
繼續閱讀本章,您還可以學習到有關 `locals`、`globals` 和基于 dictionary 的字符串格式化的內容。
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件