11.6.?處理 Last-Modified 和 ETag · Dive Into Python

# 11.6.?處理 `Last-Modified` 和 `ETag` 既然你知道如何在你的 web 服務請求中添加自定義的 HTTP 頭信息，接下來看看如何添加 `Last-Modified` 和 `ETag` 頭信息的支持。下面的這些例子將以調試標記置為關閉的狀態來顯示輸出結果。如果你還停留在上一部分的開啟狀態，可以使用 `httplib.HTTPConnection.debuglevel = 0` 將其設置為關閉狀態。或者，如果你認為有幫助也可以保持為開啟狀態。 ## 例?11.6.?測試 `Last-Modified` ``` >>> import urllib2 >>> request = urllib2.Request('http://diveintomark.org/xml/atom.xml') >>> opener = urllib2.build_opener() >>> firstdatastream = opener.open(request) >>> firstdatastream.headers.dict {'date': 'Thu, 15 Apr 2004 20:42:41 GMT', 'server': 'Apache/2.0.49 (Debian GNU/Linux)', 'content-type': 'application/atom+xml', 'last-modified': 'Thu, 15 Apr 2004 19:45:21 GMT', 'etag': '"e842a-3e53-55d97640"', 'content-length': '15955', 'accept-ranges': 'bytes', 'connection': 'close'} >>> request.add_header('If-Modified-Since', ... firstdatastream.headers.get('Last-Modified')) >>> seconddatastream = opener.open(request) Traceback (most recent call last): File "<stdin>", line 1, in ? File "c:\python23\lib\urllib2.py", line 326, in open '_open', req) File "c:\python23\lib\urllib2.py", line 306, in _call_chain result = func(*args) File "c:\python23\lib\urllib2.py", line 901, in http_open return self.do_open(httplib.HTTP, req) File "c:\python23\lib\urllib2.py", line 895, in do_open return self.parent.error('http', req, fp, code, msg, hdrs) File "c:\python23\lib\urllib2.py", line 352, in error return self._call_chain(*args) File "c:\python23\lib\urllib2.py", line 306, in _call_chain result = func(*args) File "c:\python23\lib\urllib2.py", line 412, in http_error_default raise HTTPError(req.get_full_url(), code, msg, hdrs, fp) urllib2.HTTPError: HTTP Error 304: Not Modified ``` | | | | --- | --- | | \[1\] | 還記得當調試標記設置為開啟時所有那些你看到的 HTTP 頭信息打印輸出嗎？這里便是用編程方式訪問它們的方法： `firstdatastream.headers` 是[一個類似 dictionary 行為的對象](../object_oriented_framework/userdict.html "5.5.?探索 UserDict：一個封裝類")并且允許你獲得任何個別的從 HTTP 服務器返回的頭信息。 | | \[2\] | 在第二次請求時，你用第一次請求獲得的最近修改時間添加了 `If-Modified-Since` 頭信息。如果數據沒被改變，服務器應該返回一個 `304` 狀態代碼。 | | \[3\] | 毫無疑問，數據沒被改變。你可以從跟蹤返回結果看到 `urllib2` 拋出了一個特殊異常，`HTTPError`，以響應 `304` 狀態代碼。這有點不尋常，并且完全沒有任何幫助。畢竟，它不是個錯誤；你明確地詢問服務器如果沒有變化就不要發送任何數據，并且數據沒有變化，所以服務器告訴你它沒有為你發送任何數據。那不是個錯誤；實際上也正是你所期望的。 | `urllib2` 也為你認為是錯誤的其他條件引發 `HTTPError` 異常，比如 `404` (page not found)。實際上，它將為_任何_ 除了狀態代碼 `200` (OK)、`301` (permanent redirect)或 `302` (temporary redirect) 之外的狀態引發 `HTTPError`。捕獲狀態代碼并簡單返回它，而不是拋出異常，這應該對你很有幫助。為了實現它，你將需要自定義一個 URL 處理器。 ## 例?11.7.?定義 URL 處理器這個自定義的 URL 處理器是 `openanything.py` 的一部分。 ``` class DefaultErrorHandler(urllib2.HTTPDefaultErrorHandler): def http_error_default(self, req, fp, code, msg, headers): result = urllib2.HTTPError( req.get_full_url(), code, msg, headers, fp) result.status = code return result ``` | | | | --- | --- | | \[1\] | `urllib2` 是圍繞 URL 處理器而設計的。每一個處理器就是一個能定義任意數量方法的類。當某事件發生時——比如一個 HTTP 錯誤，甚至是 `304` 代碼——`urllib2` 審視用于處理它的一系列已定義的處理器方法。在此要用到自省，與 [第?9?章 _XML 處理_](../xml_processing/index.html "第?9?章?XML 處理")中為不同節點類型定義不同處理器類似。但是 `urllib2` 是很靈活的，還可以內省為當前請求所定義的所有處理器。 | | \[2\] | 當從服務器接收到一個 `304` 狀態代碼時，`urllib2` 查找定義的操作并調用 `http_error_default` 方法。通過定義一個自定義的錯誤處理，你可以阻止 `urllib2` 引發異常。取而代之的是，你創建 `HTTPError` 對象，返回它而不是引發異常。 | | \[3\] | 這是關鍵部分：返回之前，你保存從 HTTP 服務器返回的狀態代碼。這將使你從主調程序輕而易舉地訪問它。 | ## 例?11.8.?使用自定義 URL 處理器 ``` >>> request.headers {'If-modified-since': 'Thu, 15 Apr 2004 19:45:21 GMT'} >>> import openanything >>> opener = urllib2.build_opener( ... openanything.DefaultErrorHandler()) >>> seconddatastream = opener.open(request) >>> seconddatastream.status 304 >>> seconddatastream.read() '' ``` | | | | --- | --- | | \[1\] | 繼續前面的例子，`Request` 對象已經被設置，并且你已經添加了 `If-Modified-Since` 頭信息。 | | \[2\] | 這是關鍵所在：既然已經定義了你的自定義 URL 處理器，你需要告訴 `urllib2` 來使用它。還記得我怎么說 `urllib2` 將一個 HTTP 資源的訪問過程分解為三個步驟的正當理由嗎？這便是為什么構建 HTTP 開啟器是其步驟之一，因為你能用你自定義的 URL 操作覆蓋 `urllib2` 的默認行為來創建它。 | | \[3\] | 現在你可以快速地打開一個資源，返回給你的對象既包括常規頭信息 (使用 `seconddatastream.headers.dict` 訪問它們)，也包括 HTTP 狀態代碼。在此，正如你所期望的，狀態代碼是 `304`，意味著此數據自從上次請求后沒有被修改。 | | \[4\] | 注意當服務器返回 `304` 狀態代碼時，并沒有重新發送數據。這就是全部的關鍵：沒有重新下載未修改的數據，從而節省了帶寬。因此若你確實想要那個數據，你需要在首次獲得它時在本地緩存數據。 | 處理 `ETag` 的工作也非常相似，只不過不是檢查 `Last-Modified` 并發送 `If-Modified-Since`，而是檢查 `ETag` 并發送 `If-None-Match`。讓我們打開一個新的 IDE 會話。 ## 例?11.9.?支持 `ETag`/`If-None-Match` ``` >>> import urllib2, openanything >>> request = urllib2.Request('http://diveintomark.org/xml/atom.xml') >>> opener = urllib2.build_opener( ... openanything.DefaultErrorHandler()) >>> firstdatastream = opener.open(request) >>> firstdatastream.headers.get('ETag') '"e842a-3e53-55d97640"' >>> firstdata = firstdatastream.read() >>> print firstdata <?xml version="1.0" encoding="iso-8859-1"?> <feed version="0.3" xmlns="http://purl.org/atom/ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xml:lang="en"> <title mode="escaped">dive into mark</title> <link rel="alternate" type="text/html" href="http://diveintomark.org/"/> <-- rest of feed omitted for brevity --> >>> request.add_header('If-None-Match', ... firstdatastream.headers.get('ETag')) >>> seconddatastream = opener.open(request) >>> seconddatastream.status 304 >>> seconddatastream.read() '' ``` | | | | --- | --- | | \[1\] | 使用 `firstdatastream.headers` 偽字典，你可以獲得從服務器返回的 `ETag` (如果服務器沒有返回 `ETag` 會發生什么？答案是，這一行代碼將返回 `None`。) | | \[2\] | OK，你獲得了數據。 | | \[3\] | 現在進行第二次調用，將 `If-None-Match` 頭信息設置為你第一次調用獲得的 `ETag`。 | | \[4\] | 第二次調用靜靜地成功了 (沒有出現任何的異常)，并且你又一次看到了從服務器返回的 `304` 狀態代碼。你第二次基于 `ETag` 發送請求，服務器知道數據沒有被改變。 | | \[5\] | 無論 `304` 是被 `Last-Modified` 數據檢查還是 `ETag` hash 匹配觸發的，獲得 `304` 的同時都不會下載數據。這就是重點所在。 | > 注意 > 在這些例子中，HTTP 服務器同時支持 `Last-Modified` 和 `ETag` 頭信息，但并非所有的服務器皆如此。作為一個 web 服務的客戶端，你應該為支持兩種頭信息做準備，但是你的程序也應該為服務器僅支持其中一種頭信息或兩種頭信息都不支持而做準備。