# 10.5.?根據節點類型創建不同的處理器
第三個有用的 XML 處理技巧是將你的代碼基于節點類型和元素名稱分散到邏輯函數中。解析后的 XML 文檔是由各種類型的節點組成的,每一個都是通過 Python 對象表示的。文檔本身的根層次通過一個 `Document` 對象表示。`Document` 還包含了一個或多個 `Element` 對象 (表示 XML 標記),其中的每一個可以包含其它的 `Element` 對象、`Text` 對象 (表示文本),或者 `Comment` 對象 (表示內嵌注釋)。使用 Python 編寫分離各個節點類型邏輯的分發器非常容易。
## 例?10.17.?已解析 XML 對象的類名
```
>>> from xml.dom import minidom
>>> xmldoc = minidom.parse('kant.xml')
>>> xmldoc
<xml.dom.minidom.Document instance at 0x01359DE8>
>>> xmldoc.__class__
<class xml.dom.minidom.Document at 0x01105D40>
>>> xmldoc.__class__.__name__
'Document'
```
| | |
| --- | --- |
| \[1\] | 暫時假設 `kant.xml` 在當前目錄中。 |
| \[2\] | 正如你在[第?9.2?節 “包”](../xml_processing/packages.html "9.2.?包")中看到的,解析 XML 文檔返回的對象是一個 `Document` 對象,就像在 `xml.dom` 包的 `minidom.py` 中定義的一樣。又如你在[第?5.4?節 “類的實例化”](../object_oriented_framework/instantiating_classes.html "5.4.?類的實例化")中看到的,`__class__` 是每個 Python 對象的一個內置屬性。 |
| \[3\] | 此外,`__name__` 是每個 Python 類的內置屬性,是一個字符串。這個字符串并不神秘;它和你在定義類時輸入的類名相同。(參見[第?5.3?節 “類的定義”](../object_oriented_framework/defining_classes.html "5.3.?類的定義")。) |
好,現在你能夠得到任何給定 XML 節點的類名了 (因為每個 XML 節點都是以一個 Python 對象表示的)。你怎樣才能利用這點來分離解析每個節點類型的邏輯呢?答案就是 `getattr`,你第一次見它是在[第?4.4?節 “通過 getattr 獲取對象引用”](../power_of_introspection/getattr.html "4.4.?通過 getattr 獲取對象引用")中。
## 例?10.18.?`parse`,通用 XML 節點分發器
```
def parse(self, node):
parseMethod = getattr(self, "parse_%s" % node.__class__.__name__)
parseMethod(node)
```
| | |
| --- | --- |
| \[1\] | 首先,注意你正在基于傳入節點 (`node` 參數) 的類名構造一個較大的字符串。所以如果你傳入一個 `Document` 節點,你就構造了字符串 `'parse_Document'`,其它類同于此。 |
| \[2\] | 現在你可以把這個字符串當作一個函數名稱,然后通過 `getattr` 得到函數自身的引用。 |
| \[3\] | 最后,你可以調用函數并將節點自身作為參數傳入。下一個例子將展示每個函數的定義。 |
## 例?10.19.?`parse` 分發器調用的函數
```
def parse_Document(self, node):
self.parse(node.documentElement)
def parse_Text(self, node):
text = node.data
if self.capitalizeNextWord:
self.pieces.append(text[0].upper())
self.pieces.append(text[1:])
self.capitalizeNextWord = 0
else:
self.pieces.append(text)
def parse_Comment(self, node):
pass
def parse_Element(self, node):
handlerMethod = getattr(self, "do_%s" % node.tagName)
handlerMethod(node)
```
| | |
| --- | --- |
| \[1\] | `parse_Document` 只會被調用一次,因為在一個 XML 文檔中只有一個 `Document` 節點,并且在已解析 XML 的表示中只有一個 `Document` 對象。在此它只是起到中轉作用,轉而解析語法文件的根元素。 |
| \[2\] | `parse_Text` 在節點表示文本時被調用。這個函數本身做某種特殊處理,自動將句子的第一個單詞進行大寫處理,而不是簡單地將表示的文本追加到一個列表中。 |
| \[3\] | `parse_Comment` 只有一個 `pass`,因為你并不關心語法文件中嵌入的注釋。但是注意,你還是要定義這個函數并顯式地讓它不做任何事情。如果這個函數不存在,通用 `parse` 函數在遇到一個注釋的時候會執行失敗,因為它試圖找到并不存在的 `parse_Comment` 函數。為每個節點類型定義獨立的函數――甚至你不要使用的――將會使通用 `parse` 函數保持簡單和沉默。 |
| \[4\] | `parse_Element` 方法其實本身就是一個分發器,一個基于元素的標記名稱的分發器。這個基本概念是相同的:使用元素的區別 (它們的標記名稱) 然后針對每一個分發到一個獨立的函數。你構建了一個類似于 `'do_xref'` 的字符串 (對 `<xref>` 標記而言),找到這個名稱的函數,并調用它。對其它的標記名稱 (像`<p>` 和 `<choice>`) 在解析語法文件的時候都可以找到類似的函數。 |
在這個例子中,分發函數 `parse` 和 `parse_Element` 只是找到相同類中的其它方法。如果你進行的處理過程很復雜 (或者你有很多不同的標記名稱),你可以將代碼分散到獨立的模塊中,然后使用動態導入的方式導入每個模塊并調用你需要的任何函數。動態導入將在[第?16?章 _函數編程_](../functional_programming/index.html "第?16?章?函數編程")中介紹。
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件