# 10.1.?抽象輸入源
Python 的最強大力量之一是它的動態綁定,而動態綁定最強大的用法之一是_類文件(file-like)對象_。
許多需要輸入源的函數可以只接收一個文件名,并以讀方式打開文件,讀取文件,處理完成后關閉它。其實它們不是這樣的,而是接收一個_類文件對象_。
在最簡單的例子中,_類文件對象_ 是任意一個帶有 `read` 方法的對象,這個方法帶有一個可選的 `size` 參數,并返回一個字符串。調用時如果沒有 `size` 參數,它從輸入源中讀取所有東西并將所有數據作為單個字符串返回;調用時如果指定了 `size` 參數,它將從輸入源中讀取 `size` 大小的數據并返回這些數據;再次調用的時候,它從余下的地方開始并返回下一塊數據。
這就是[從真實文件讀取數據](../file_handling/file_objects.html "6.2.?與文件對象共事")的工作方式;區別在于你不用把自己局限于真實的文件。輸入源可以是任何東西:磁盤上的文件,甚至是一個硬編碼的字符串。只要你將一個類文件對象傳遞給函數,函數只是調用對象的 `read` 方法,就可以處理任何類型的輸入源,而不需要為處理每種類型分別編碼。
你可能會納悶,這和 XML 處理有什么關系。其實 `minidom.parse` 就是一個可以接收類文件對象的函數。
## 例?10.1.?從文件中解析 XML
```
>>> from xml.dom import minidom
>>> fsock = open('binary.xml')
>>> xmldoc = minidom.parse(fsock)
>>> fsock.close()
>>> print xmldoc.toxml()
<?xml version="1.0" ?>
<grammar>
<ref id="bit">
<p>0</p>
<p>1</p>
</ref>
<ref id="byte">
<p><xref id="bit"/><xref id="bit"/><xref id="bit"/><xref id="bit"/>\
<xref id="bit"/><xref id="bit"/><xref id="bit"/><xref id="bit"/></p>
</ref>
</grammar>
```
| | |
| --- | --- |
| \[1\] | 首先,你要打開一個磁盤上的文件。這會提供給你一個[文件對象](../file_handling/file_objects.html "6.2.?與文件對象共事")。 |
| \[2\] | 將文件對象傳遞給 `minidom.parse`,它調用 `fsock` 的 `read` 方法并從磁盤上的文件讀取 XML 文檔。 |
| \[3\] | 確保處理完文件后調用 `close` 方法。`minidom.parse`不會替你做這件事。 |
| \[4\] | 在返回的 XML 文檔上調用 `toxml()` 方法,打印出整個文檔的內容。 |
哦,所有這些看上去像是在浪費大量的時間。畢竟,你已經看到,`minidom.parse` 可以只接收文件名,并自動執行所有打開文件和關閉無用文件的行為。不錯,如果你知道正要解析的是一個本地文件,你可以傳遞文件名而且 `minidom.parse` 可以足夠聰明地做正確的事情 (Do The Right Thing?\[10\]),這一切都不會有問題。但是請注意,使用類文件,會使分析直接從 Internet 上來的 XML 文檔變得多么相似和容易!
## 例?10.2.?解析來自 URL 的 XML
```
>>> import urllib
>>> usock = urllib.urlopen('http://slashdot.org/slashdot.rdf')
>>> xmldoc = minidom.parse(usock)
>>> usock.close()
>>> print xmldoc.toxml()
<?xml version="1.0" ?>
<rdf:RDF xmlns="http://my.netscape.com/rdf/simple/0.9/"
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
<channel>
<title>Slashdot</title>
<link>http://slashdot.org/</link>
<description>News for nerds, stuff that matters</description>
</channel>
<image>
<title>Slashdot</title>
<url>http://images.slashdot.org/topics/topicslashdot.gif</url>
<link>http://slashdot.org/</link>
</image>
<item>
<title>To HDTV or Not to HDTV?</title>
<link>http://slashdot.org/article.pl?sid=01/12/28/0421241</link>
</item>
[...snip...]
```
| | |
| --- | --- |
| \[1\] | 正如在[前一章](../html_processing/extracting_data.html#dialect.extract.urllib "例?8.5.?urllib 介紹")中所看到的,`urlopen` 接收一個 web 頁面的 URL 作為參數并返回一個類文件對象。最重要的是,這個對象有一個 `read` 方法,它可以返回 web 頁面的 HTML 源代碼。 |
| \[2\] | 現在把類文件對象傳遞給 `minidom.parse`,它順從地調用對象的 `read` 方法并解析 `read` 方法返回的 XML 數據。這與 XML 數據現在直接來源于 web 頁面的事實毫不相干。`minidom.parse` 并不知道 web 頁面,它也不關心 web 頁面;它只知道類文件對象。 |
| \[3\] | 到這里已經處理完畢了,確保將 `urlopen` 提供給你的類文件對象關閉。 |
| \[4\] | 順便提一句,這個 URL 是真實的,它真的是一個 XML。它是 [Slashdot](http://slashdot.org/) 站點 (一個技術新聞和隨筆站點) 上當前新聞提要的 XML 表示。 |
## 例?10.3.?解析字符串 XML (容易但不靈活的方式)
```
>>> contents = "<grammar><ref id='bit'><p>0</p><p>1</p></ref></grammar>"
>>> xmldoc = minidom.parseString(contents)
>>> print xmldoc.toxml()
<?xml version="1.0" ?>
<grammar><ref id="bit"><p>0</p><p>1</p></ref></grammar>
```
| | |
| --- | --- |
| \[1\] | `minidom` 有一個方法,`parseString`,它接收一個字符串形式的完整 XML 文檔作為參數并解析這個參數。如果你已經將整個 XML 文檔放入一個字符串,你可以使用它代替 `minidom.parse`。 |
好吧,所以你可以使用 `minidom.parse` 函數來解析本地文件和遠端 URL,但對于解析字符串,你使用……另一個函數。這就是說,如果你要從文件、URL 或者字符串接收輸入,就需要特別的邏輯來判斷參數是否是字符串,然后調用 `parseString`。多不讓人滿意。
如果有一個方法可以把字符串轉換成類文件對象,那么你只要這個對象傳遞給 `minidom.parse` 就可以了。事實上,有一個模塊專門設計用來做這件事:`StringIO`。
## 例?10.4.?`StringIO` 介紹
```
>>> contents = "<grammar><ref id='bit'><p>0</p><p>1</p></ref></grammar>"
>>> import StringIO
>>> ssock = StringIO.StringIO(contents)
>>> ssock.read()
"<grammar><ref id='bit'><p>0</p><p>1</p></ref></grammar>"
>>> ssock.read()
''
>>> ssock.seek(0)
>>> ssock.read(15)
'<grammar><ref i'
>>> ssock.read(15)
"d='bit'><p>0</p"
>>> ssock.read()
'><p>1</p></ref></grammar>'
>>> ssock.close()
```
| | |
| --- | --- |
| \[1\] | `StringIO` 模塊只包含了一個類,也叫 `StringIO`,它允許你將一個字符串轉換為一個類文件對象。 `StringIO` 類在創建實例時接收字符串作為參數。 |
| \[2\] | 現在你有了一個類文件對象,你可用它做類文件的所有事情。比如 `read` 可以返回原始字符串。 |
| \[3\] | 再次調用 `read` 返回空字符串。真實文件對象的工作方式也是這樣的;一旦你讀取了整個文件,如果不顯式定位到文件的開始位置,就不可能讀取到任何其他數據。`StringIO` 對象以相同的方式進行工作。 |
| \[4\] | 使用 `StringIO` 對象的 `seek` 方法,你可以顯式地定位到字符串的開始位置,就像在文件中定位一樣。 |
| \[5\] | 將一個 `size` 參數傳遞給 `read` 方法,你還可以以塊的形式讀取字符串。 |
| \[6\] | 任何時候,`read` 都將返回字符串的未讀部分。所有這些嚴格地按文件對象的方式工作;這就是術語_類文件對象_ 的來歷。 |
## 例?10.5.?解析字符串 XML (類文件對象方式)
```
>>> contents = "<grammar><ref id='bit'><p>0</p><p>1</p></ref></grammar>"
>>> ssock = StringIO.StringIO(contents)
>>> xmldoc = minidom.parse(ssock)
>>> ssock.close()
>>> print xmldoc.toxml()
<?xml version="1.0" ?>
<grammar><ref id="bit"><p>0</p><p>1</p></ref></grammar>
```
| | |
| --- | --- |
| \[1\] | 現在你可以把類文件對象 (實際是一個 `StringIO`) 傳遞給 `minidom.parse`,它將調用對象的 `read` 方法并高興地開始解析,絕不會知道它的輸入源自一個硬編碼的字符串。 |
那么現在你知道了如何使用同一個函數,`minidom.parse`,來解析一個保存在 web 頁面上、本地文件中或硬編碼字符串中的 XML 文檔。對于一個 web 頁面,使用 `urlopen` 得到類文件對象;對于本地文件,使用 `open`;對于字符串,使用 `StringIO`。現在讓我們進一步并歸納一下_這些_ 不同。
## 例?10.6.?`openAnything`
```
def openAnything(source):
# try to open with urllib (if source is http, ftp, or file URL)
import urllib
try:
return urllib.urlopen(source)
except (IOError, OSError):
pass
# try to open with native open function (if source is pathname)
try:
return open(source)
except (IOError, OSError):
pass
# treat source as string
import StringIO
return StringIO.StringIO(str(source))
```
| | |
| --- | --- |
| \[1\] | `openAnything` 函數接受單個參數,`source`,并返回類文件對象。`source` 是某種類型的字符串;它可能是一個 URL (例如 `'http://slashdot.org/slashdot.rdf'`),一個本地文件的完整或者部分路徑名 (例如 `'binary.xml'`),或者是一個包含了待解析 XML 數據的字符串。 |
| \[2\] | 首先,檢查 `source` 是否是一個 URL。這里通過強制方式進行:嘗試把它當作一個 URL 打開并靜靜地忽略打開非 URL 引起的錯誤。這樣做非常好,因為如果 `urllib` 將來支持更多的 URL 類型,不用重新編碼就可以支持它們。如果 `urllib` 能夠打開 `source`,那么 `return` 可以立刻把你踢出函數,下面的 `try` 語句將不會執行。 |
| \[3\] | 另一方面,如果 `urllib` 向你呼喊并告訴你 `source` 不是一個有效的 URL,你假設它是一個磁盤文件的路徑并嘗試打開它。再一次,你不用做任何特別的事來檢查 `source` 是否是一個有效的文件名 (在不同的平臺上,判斷文件名有效性的規則變化很大,因此不管怎樣做都可能會判斷錯)。反而,只要盲目地打開文件并靜靜地捕獲任何錯誤就可以了。 |
| \[4\] | 到這里,你需要假設 `source` 是一個其中有硬編碼數據的字符串 (因為沒有別的可以判斷的了),所以你可以使用 `StringIO` 從中創建一個類文件對象并將它返回。(實際上,由于使用了 `str` 函數,所以 `source` 沒有必要一定是字符串;它可以是任何對象,你可以使用它的字符串表示形式,只要定義了它的 `__str__` [專用方法](../object_oriented_framework/special_class_methods2.html "5.7.?高級專用類方法")。) |
現在你可以使用這個 `openAnything` 函數聯合 `minidom.parse` 構造一個函數,接收一個指向 XML 文檔的 `source`,而且無需知道這個 `source` 的含義 (可以是一個 URL 或是一個本地文件名,或是一個硬編碼 XML 文檔的字符串形式),然后解析它。
## 例?10.7.?在 `kgp.py` 中使用 `openAnything`
```
class KantGenerator:
def _load(self, source):
sock = toolbox.openAnything(source)
xmldoc = minidom.parse(sock).documentElement
sock.close()
return xmldoc
```
## Footnotes
\[10\] 這是一部著名的電影。――譯注
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件