# 11.6.?處理 `Last-Modified` 和 `ETag`
既然你知道如何在你的 web 服務請求中添加自定義的 HTTP 頭信息,接下來看看如何添加 `Last-Modified` 和 `ETag` 頭信息的支持。
下面的這些例子將以調試標記置為關閉的狀態來顯示輸出結果。如果你還停留在上一部分的開啟狀態,可以使用 `httplib.HTTPConnection.debuglevel = 0` 將其設置為關閉狀態。或者,如果你認為有幫助也可以保持為開啟狀態。
## 例?11.6.?測試 `Last-Modified`
```
>>> import urllib2
>>> request = urllib2.Request('http://diveintomark.org/xml/atom.xml')
>>> opener = urllib2.build_opener()
>>> firstdatastream = opener.open(request)
>>> firstdatastream.headers.dict
{'date': 'Thu, 15 Apr 2004 20:42:41 GMT',
'server': 'Apache/2.0.49 (Debian GNU/Linux)',
'content-type': 'application/atom+xml',
'last-modified': 'Thu, 15 Apr 2004 19:45:21 GMT',
'etag': '"e842a-3e53-55d97640"',
'content-length': '15955',
'accept-ranges': 'bytes',
'connection': 'close'}
>>> request.add_header('If-Modified-Since',
... firstdatastream.headers.get('Last-Modified'))
>>> seconddatastream = opener.open(request)
Traceback (most recent call last):
File "<stdin>", line 1, in ?
File "c:\python23\lib\urllib2.py", line 326, in open
'_open', req)
File "c:\python23\lib\urllib2.py", line 306, in _call_chain
result = func(*args)
File "c:\python23\lib\urllib2.py", line 901, in http_open
return self.do_open(httplib.HTTP, req)
File "c:\python23\lib\urllib2.py", line 895, in do_open
return self.parent.error('http', req, fp, code, msg, hdrs)
File "c:\python23\lib\urllib2.py", line 352, in error
return self._call_chain(*args)
File "c:\python23\lib\urllib2.py", line 306, in _call_chain
result = func(*args)
File "c:\python23\lib\urllib2.py", line 412, in http_error_default
raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 304: Not Modified
```
| | |
| --- | --- |
| \[1\] | 還記得當調試標記設置為開啟時所有那些你看到的 HTTP 頭信息打印輸出嗎? 這里便是用編程方式訪問它們的方法: `firstdatastream.headers` 是[一個類似 dictionary 行為的對象](../object_oriented_framework/userdict.html "5.5.?探索 UserDict:一個封裝類")并且允許你獲得任何個別的從 HTTP 服務器返回的頭信息。 |
| \[2\] | 在第二次請求時,你用第一次請求獲得的最近修改時間添加了 `If-Modified-Since` 頭信息。如果數據沒被改變,服務器應該返回一個 `304` 狀態代碼。 |
| \[3\] | 毫無疑問,數據沒被改變。你可以從跟蹤返回結果看到 `urllib2` 拋出了一個特殊異常,`HTTPError`,以響應 `304` 狀態代碼。這有點不尋常,并且完全沒有任何幫助。畢竟,它不是個錯誤;你明確地詢問服務器如果沒有變化就不要發送任何數據,并且數據沒有變化,所以服務器告訴你它沒有為你發送任何數據。那不是個錯誤;實際上也正是你所期望的。 |
`urllib2` 也為你認為是錯誤的其他條件引發 `HTTPError` 異常,比如 `404` (page not found)。實際上,它將為_任何_ 除了狀態代碼 `200` (OK)、`301` (permanent redirect)或 `302` (temporary redirect) 之外的狀態引發 `HTTPError`。捕獲狀態代碼并簡單返回它,而不是拋出異常,這應該對你很有幫助。為了實現它,你將需要自定義一個 URL 處理器。
## 例?11.7.?定義 URL 處理器
這個自定義的 URL 處理器是 `openanything.py` 的一部分。
```
class DefaultErrorHandler(urllib2.HTTPDefaultErrorHandler):
def http_error_default(self, req, fp, code, msg, headers):
result = urllib2.HTTPError(
req.get_full_url(), code, msg, headers, fp)
result.status = code
return result
```
| | |
| --- | --- |
| \[1\] | `urllib2` 是圍繞 URL 處理器而設計的。每一個處理器就是一個能定義任意數量方法的類。當某事件發生時——比如一個 HTTP 錯誤,甚至是 `304` 代碼——`urllib2` 審視用于處理它的 一系列已定義的處理器方法。在此要用到自省,與 [第?9?章 _XML 處理_](../xml_processing/index.html "第?9?章?XML 處理")中為不同節點類型定義不同處理器類似。但是 `urllib2` 是很靈活的,還可以內省為當前請求所定義的所有處理器。 |
| \[2\] | 當從服務器接收到一個 `304` 狀態代碼時,`urllib2` 查找定義的操作并調用 `http_error_default` 方法。通過定義一個自定義的錯誤處理,你可以阻止 `urllib2` 引發異常。取而代之的是,你創建 `HTTPError` 對象,返回它而不是引發異常。 |
| \[3\] | 這是關鍵部分:返回之前,你保存從 HTTP 服務器返回的狀態代碼。這將使你從主調程序輕而易舉地訪問它。 |
## 例?11.8.?使用自定義 URL 處理器
```
>>> request.headers
{'If-modified-since': 'Thu, 15 Apr 2004 19:45:21 GMT'}
>>> import openanything
>>> opener = urllib2.build_opener(
... openanything.DefaultErrorHandler())
>>> seconddatastream = opener.open(request)
>>> seconddatastream.status
304
>>> seconddatastream.read()
''
```
| | |
| --- | --- |
| \[1\] | 繼續前面的例子,`Request` 對象已經被設置,并且你已經添加了 `If-Modified-Since` 頭信息。 |
| \[2\] | 這是關鍵所在:既然已經定義了你的自定義 URL 處理器,你需要告訴 `urllib2` 來使用它。還記得我怎么說 `urllib2` 將一個 HTTP 資源的訪問過程分解為三個步驟的正當理由嗎?這便是為什么構建 HTTP 開啟器是其步驟之一,因為你能用你自定義的 URL 操作覆蓋 `urllib2` 的默認行為來創建它。 |
| \[3\] | 現在你可以快速地打開一個資源,返回給你的對象既包括常規頭信息 (使用 `seconddatastream.headers.dict` 訪問它們),也包括 HTTP 狀態代碼。在此,正如你所期望的,狀態代碼是 `304`,意味著此數據自從上次請求后沒有被修改。 |
| \[4\] | 注意當服務器返回 `304` 狀態代碼時,并沒有重新發送數據。這就是全部的關鍵:沒有重新下載未修改的數據,從而節省了帶寬。因此若你確實想要那個數據,你需要在首次獲得它時在本地緩存數據。 |
處理 `ETag` 的工作也非常相似,只不過不是檢查 `Last-Modified` 并發送 `If-Modified-Since`,而是檢查 `ETag` 并發送 `If-None-Match`。讓我們打開一個新的 IDE 會話。
## 例?11.9.?支持 `ETag`/`If-None-Match`
```
>>> import urllib2, openanything
>>> request = urllib2.Request('http://diveintomark.org/xml/atom.xml')
>>> opener = urllib2.build_opener(
... openanything.DefaultErrorHandler())
>>> firstdatastream = opener.open(request)
>>> firstdatastream.headers.get('ETag')
'"e842a-3e53-55d97640"'
>>> firstdata = firstdatastream.read()
>>> print firstdata
<?xml version="1.0" encoding="iso-8859-1"?>
<feed version="0.3"
xmlns="http://purl.org/atom/ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xml:lang="en">
<title mode="escaped">dive into mark</title>
<link rel="alternate" type="text/html" href="http://diveintomark.org/"/>
<-- rest of feed omitted for brevity -->
>>> request.add_header('If-None-Match',
... firstdatastream.headers.get('ETag'))
>>> seconddatastream = opener.open(request)
>>> seconddatastream.status
304
>>> seconddatastream.read()
''
```
| | |
| --- | --- |
| \[1\] | 使用 `firstdatastream.headers` 偽字典,你可以獲得從服務器返回的 `ETag` (如果服務器沒有返回 `ETag` 會發生什么?答案是,這一行代碼將返回 `None`。) |
| \[2\] | OK,你獲得了數據。 |
| \[3\] | 現在進行第二次調用,將 `If-None-Match` 頭信息設置為你第一次調用獲得的 `ETag`。 |
| \[4\] | 第二次調用靜靜地成功了 (沒有出現任何的異常),并且你又一次看到了從服務器返回的 `304` 狀態代碼。你第二次基于 `ETag` 發送請求,服務器知道數據沒有被改變。 |
| \[5\] | 無論 `304` 是被 `Last-Modified` 數據檢查還是 `ETag` hash 匹配觸發的,獲得 `304` 的同時都不會下載數據。這就是重點所在。 |
> 注意
> 在這些例子中,HTTP 服務器同時支持 `Last-Modified` 和 `ETag` 頭信息,但并非所有的服務器皆如此。作為一個 web 服務的客戶端,你應該為支持兩種頭信息做準備,但是你的程序也應該為服務器僅支持其中一種頭信息或兩種頭信息都不支持而做準備。
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件