10.1.?抽象輸入源 · Dive Into Python

# 10.1.?抽象輸入源 Python 的最強大力量之一是它的動態綁定，而動態綁定最強大的用法之一是_類文件(file-like)對象_。許多需要輸入源的函數可以只接收一個文件名，并以讀方式打開文件，讀取文件，處理完成后關閉它。其實它們不是這樣的，而是接收一個_類文件對象_。在最簡單的例子中，_類文件對象_ 是任意一個帶有 `read` 方法的對象，這個方法帶有一個可選的 `size` 參數，并返回一個字符串。調用時如果沒有 `size` 參數，它從輸入源中讀取所有東西并將所有數據作為單個字符串返回；調用時如果指定了 `size` 參數，它將從輸入源中讀取 `size` 大小的數據并返回這些數據；再次調用的時候，它從余下的地方開始并返回下一塊數據。這就是[從真實文件讀取數據](../file_handling/file_objects.html "6.2.?與文件對象共事")的工作方式；區別在于你不用把自己局限于真實的文件。輸入源可以是任何東西：磁盤上的文件，甚至是一個硬編碼的字符串。只要你將一個類文件對象傳遞給函數，函數只是調用對象的 `read` 方法，就可以處理任何類型的輸入源，而不需要為處理每種類型分別編碼。你可能會納悶，這和 XML 處理有什么關系。其實 `minidom.parse` 就是一個可以接收類文件對象的函數。 ## 例?10.1.?從文件中解析 XML ``` >>> from xml.dom import minidom >>> fsock = open('binary.xml') >>> xmldoc = minidom.parse(fsock) >>> fsock.close() >>> print xmldoc.toxml() <?xml version="1.0" ?> <grammar> <ref id="bit"> 0 1 </ref> <ref id="byte"> <xref id="bit"/><xref id="bit"/><xref id="bit"/><xref id="bit"/>\ <xref id="bit"/><xref id="bit"/><xref id="bit"/><xref id="bit"/> </ref> </grammar> ``` | | | | --- | --- | | \[1\] | 首先，你要打開一個磁盤上的文件。這會提供給你一個[文件對象](../file_handling/file_objects.html "6.2.?與文件對象共事")。 | | \[2\] | 將文件對象傳遞給 `minidom.parse`，它調用 `fsock` 的 `read` 方法并從磁盤上的文件讀取 XML 文檔。 | | \[3\] | 確保處理完文件后調用 `close` 方法。`minidom.parse`不會替你做這件事。 | | \[4\] | 在返回的 XML 文檔上調用 `toxml()` 方法，打印出整個文檔的內容。 | 哦，所有這些看上去像是在浪費大量的時間。畢竟，你已經看到，`minidom.parse` 可以只接收文件名，并自動執行所有打開文件和關閉無用文件的行為。不錯，如果你知道正要解析的是一個本地文件，你可以傳遞文件名而且 `minidom.parse` 可以足夠聰明地做正確的事情 (Do The Right Thing?\[10\])，這一切都不會有問題。但是請注意，使用類文件，會使分析直接從 Internet 上來的 XML 文檔變得多么相似和容易！ ## 例?10.2.?解析來自 URL 的 XML ``` >>> import urllib >>> usock = urllib.urlopen('http://slashdot.org/slashdot.rdf') >>> xmldoc = minidom.parse(usock) >>> usock.close() >>> print xmldoc.toxml() <?xml version="1.0" ?> <rdf:RDF xmlns="http://my.netscape.com/rdf/simple/0.9/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <channel> <title>Slashdot</title> <link>http://slashdot.org/</link> <description>News for nerds, stuff that matters</description> </channel> <image> <title>Slashdot</title> <url>http://images.slashdot.org/topics/topicslashdot.gif</url> <link>http://slashdot.org/</link> </image> <item> <title>To HDTV or Not to HDTV?</title> <link>http://slashdot.org/article.pl?sid=01/12/28/0421241</link> </item> [...snip...] ``` | | | | --- | --- | | \[1\] | 正如在[前一章](../html_processing/extracting_data.html#dialect.extract.urllib "例?8.5.?urllib 介紹")中所看到的，`urlopen` 接收一個 web 頁面的 URL 作為參數并返回一個類文件對象。最重要的是，這個對象有一個 `read` 方法，它可以返回 web 頁面的 HTML 源代碼。 | | \[2\] | 現在把類文件對象傳遞給 `minidom.parse`，它順從地調用對象的 `read` 方法并解析 `read` 方法返回的 XML 數據。這與 XML 數據現在直接來源于 web 頁面的事實毫不相干。`minidom.parse` 并不知道 web 頁面，它也不關心 web 頁面；它只知道類文件對象。 | | \[3\] | 到這里已經處理完畢了，確保將 `urlopen` 提供給你的類文件對象關閉。 | | \[4\] | 順便提一句，這個 URL 是真實的，它真的是一個 XML。它是 [Slashdot](http://slashdot.org/) 站點 (一個技術新聞和隨筆站點) 上當前新聞提要的 XML 表示。 | ## 例?10.3.?解析字符串 XML (容易但不靈活的方式) ``` >>> contents = "<grammar><ref id='bit'>01</ref></grammar>" >>> xmldoc = minidom.parseString(contents) >>> print xmldoc.toxml() <?xml version="1.0" ?> <grammar><ref id="bit">01</ref></grammar> ``` | | | | --- | --- | | \[1\] | `minidom` 有一個方法，`parseString`，它接收一個字符串形式的完整 XML 文檔作為參數并解析這個參數。如果你已經將整個 XML 文檔放入一個字符串，你可以使用它代替 `minidom.parse`。 | 好吧，所以你可以使用 `minidom.parse` 函數來解析本地文件和遠端 URL，但對于解析字符串，你使用……另一個函數。這就是說，如果你要從文件、URL 或者字符串接收輸入，就需要特別的邏輯來判斷參數是否是字符串，然后調用 `parseString`。多不讓人滿意。如果有一個方法可以把字符串轉換成類文件對象，那么你只要這個對象傳遞給 `minidom.parse` 就可以了。事實上，有一個模塊專門設計用來做這件事：`StringIO`。 ## 例?10.4.?`StringIO` 介紹 ``` >>> contents = "<grammar><ref id='bit'>01</ref></grammar>" >>> import StringIO >>> ssock = StringIO.StringIO(contents) >>> ssock.read() "<grammar><ref id='bit'>01</ref></grammar>" >>> ssock.read() '' >>> ssock.seek(0) >>> ssock.read(15) '<grammar><ref i' >>> ssock.read(15) "d='bit'>0</p" >>> ssock.read() '>1</ref></grammar>' >>> ssock.close() ``` | | | | --- | --- | | \[1\] | `StringIO` 模塊只包含了一個類，也叫 `StringIO`，它允許你將一個字符串轉換為一個類文件對象。 `StringIO` 類在創建實例時接收字符串作為參數。 | | \[2\] | 現在你有了一個類文件對象，你可用它做類文件的所有事情。比如 `read` 可以返回原始字符串。 | | \[3\] | 再次調用 `read` 返回空字符串。真實文件對象的工作方式也是這樣的；一旦你讀取了整個文件，如果不顯式定位到文件的開始位置，就不可能讀取到任何其他數據。`StringIO` 對象以相同的方式進行工作。 | | \[4\] | 使用 `StringIO` 對象的 `seek` 方法，你可以顯式地定位到字符串的開始位置，就像在文件中定位一樣。 | | \[5\] | 將一個 `size` 參數傳遞給 `read` 方法，你還可以以塊的形式讀取字符串。 | | \[6\] | 任何時候，`read` 都將返回字符串的未讀部分。所有這些嚴格地按文件對象的方式工作；這就是術語_類文件對象_ 的來歷。 | ## 例?10.5.?解析字符串 XML (類文件對象方式) ``` >>> contents = "<grammar><ref id='bit'>01</ref></grammar>" >>> ssock = StringIO.StringIO(contents) >>> xmldoc = minidom.parse(ssock) >>> ssock.close() >>> print xmldoc.toxml() <?xml version="1.0" ?> <grammar><ref id="bit">01</ref></grammar> ``` | | | | --- | --- | | \[1\] | 現在你可以把類文件對象 (實際是一個 `StringIO`) 傳遞給 `minidom.parse`，它將調用對象的 `read` 方法并高興地開始解析，絕不會知道它的輸入源自一個硬編碼的字符串。 | 那么現在你知道了如何使用同一個函數，`minidom.parse`，來解析一個保存在 web 頁面上、本地文件中或硬編碼字符串中的 XML 文檔。對于一個 web 頁面，使用 `urlopen` 得到類文件對象；對于本地文件，使用 `open`；對于字符串，使用 `StringIO`。現在讓我們進一步并歸納一下_這些_ 不同。 ## 例?10.6.?`openAnything` ``` def openAnything(source): # try to open with urllib (if source is http, ftp, or file URL) import urllib try: return urllib.urlopen(source) except (IOError, OSError): pass # try to open with native open function (if source is pathname) try: return open(source) except (IOError, OSError): pass # treat source as string import StringIO return StringIO.StringIO(str(source)) ``` | | | | --- | --- | | \[1\] | `openAnything` 函數接受單個參數，`source`，并返回類文件對象。`source` 是某種類型的字符串；它可能是一個 URL (例如 `'http://slashdot.org/slashdot.rdf'`)，一個本地文件的完整或者部分路徑名 (例如 `'binary.xml'`)，或者是一個包含了待解析 XML 數據的字符串。 | | \[2\] | 首先，檢查 `source` 是否是一個 URL。這里通過強制方式進行：嘗試把它當作一個 URL 打開并靜靜地忽略打開非 URL 引起的錯誤。這樣做非常好，因為如果 `urllib` 將來支持更多的 URL 類型，不用重新編碼就可以支持它們。如果 `urllib` 能夠打開 `source`，那么 `return` 可以立刻把你踢出函數，下面的 `try` 語句將不會執行。 | | \[3\] | 另一方面，如果 `urllib` 向你呼喊并告訴你 `source` 不是一個有效的 URL，你假設它是一個磁盤文件的路徑并嘗試打開它。再一次，你不用做任何特別的事來檢查 `source` 是否是一個有效的文件名 (在不同的平臺上，判斷文件名有效性的規則變化很大，因此不管怎樣做都可能會判斷錯)。反而，只要盲目地打開文件并靜靜地捕獲任何錯誤就可以了。 | | \[4\] | 到這里，你需要假設 `source` 是一個其中有硬編碼數據的字符串 (因為沒有別的可以判斷的了)，所以你可以使用 `StringIO` 從中創建一個類文件對象并將它返回。(實際上，由于使用了 `str` 函數，所以 `source` 沒有必要一定是字符串；它可以是任何對象，你可以使用它的字符串表示形式，只要定義了它的 `__str__` [專用方法](../object_oriented_framework/special_class_methods2.html "5.7.?高級專用類方法")。) | 現在你可以使用這個 `openAnything` 函數聯合 `minidom.parse` 構造一個函數，接收一個指向 XML 文檔的 `source`，而且無需知道這個 `source` 的含義 (可以是一個 URL 或是一個本地文件名，或是一個硬編碼 XML 文檔的字符串形式)，然后解析它。 ## 例?10.7.?在 `kgp.py` 中使用 `openAnything` ``` class KantGenerator: def _load(self, source): sock = toolbox.openAnything(source) xmldoc = minidom.parse(sock).documentElement sock.close() return xmldoc ``` ## Footnotes \[10\] 這是一部著名的電影。――譯注