# 11.3.?HTTP 的特性
* 11.3.1\. 用戶代理 (User-Agent)
* 11.3.2\. 重定向 (Redirects)
* 11.3.3\. Last-Modified/If-Modified-Since
* 11.3.4\. ETag/If-None-Match
* 11.3.5\. 壓縮 (Compression)
這里有五個你必須關注的 HTTP 重要特性。
## 11.3.1.?用戶代理 (`User-Agent`)
`User-Agent` 是一種客戶端告知服務器誰在什么時候通過 HTTP 請求了一個 web 頁、feed 匯聚或其他類型的 web 服務的簡單途徑。當客戶端請求一個資源時,應該盡可能明確發起請求的是誰,以便當產生異常錯誤時,允許服務器端的管理員與客戶端的開發者取得聯系。
默認情況下 Python 發送一個通用的 `User-Agent`:`Python-urllib/1.15`。下一節,您將看到更加有針對性的 `User-Agent`。
## 11.3.2.?重定向 (Redirects)
有時資源移來移去。Web 站點重組內容,頁面移動到了新的地址。甚至是 web 服務重組。原來位于 `http://example.com/index.xml` 的 feed 匯聚可能被移動到 `http://example.com/xml/atom.xml`。或者因為一個機構的擴展或重組,整個域被遷移。例如,`http://www.example.com/index.xml` 可能被重定向到 `http://server-farm-1.example.com/index.xml`。
您每次從 HTTP 服務器請求任何類型的資源時,服務器的響應中均包含一個狀態代碼。狀態代碼 `200` 的意思是 “一切正常,這就是您請求的頁面”。狀態代碼 `404` 的意思是 “頁面沒找到”。 (當瀏覽 web 時,你可能看到過 404 errors。)
HTTP 有兩種不同的方法表示資源已經被移動。狀態代碼 `302` 表示_臨時重定向_;這意味著 “哎呀,訪問內容被臨時移動” (然后在 `Location:` 頭信息中給出臨時地址)。狀態代碼 `301` 表示_永久重定向_;這意味著 “哎呀,訪問內容被永久移動” (然后在 `Location:` 頭信息中給出新地址)。如果您獲得了一個 `302` 狀態代碼和一個新地址,HTTP 規范說您應該使用新地址獲取您的請求,但是下次您要訪問同一資源時,應該使用原地址重試。但是如果您獲得了一個 `301` 狀態代碼和一個新地址,您應該從此使用新地址。
當從 HTTP 服務器接受到一個適當的狀態代碼時,`urllib.urlopen` 將自動 “跟蹤” 重定向,但不幸的是,當它做了重定向時不會告訴你。 你將最終獲得所請求的數據,卻絲毫不會察覺到在這個過程中一個潛在的庫 “幫助” 你做了一次重定向操作。因此你將繼續不斷地使用舊地址,并且每次都將獲得被重定向的新地址。這一過程要往返兩次而不是一次:太沒效率了!本章的后面,您將看到如何改進這一點,從而適當地且有效率地處理永久重定向。
## 11.3.3.?`Last-Modified`/`If-Modified-Since`
有些數據隨時都在變化。CNN.com 的主頁經常幾分鐘就更新。另一方面,Google.com 的主頁幾個星期才更新一次 (當他們上傳特殊的假日 logo,或為一個新服務作廣告時)。 Web 服務是不變的:通常服務器知道你所請求的數據的最后修改時間,并且 HTTP 為服務器提供了一種將最近修改數據連同你請求的數據一同發送的方法。
如果你第二次 (或第三次,或第四次) 請求相同的數據,你可以告訴服務器你上一次獲得的最后修改日期:在你的請求中發送一個 `If-Modified-Since` 頭信息,它包含了上一次從服務器連同數據所獲得的日期。如果數據從那時起沒有改變,服務器將返回一個特殊的 HTTP 狀態代碼 `304`,這意味著 “從上一次請求后這個數據沒有改變”。這一點有何進步呢?當服務器發送狀態編碼 `304` 時,_不再重新發送數據_。您僅僅獲得了這個狀態代碼。所以當數據沒有更新時,你不需要一次又一次地下載相同的數據;服務器假定你有本地的緩存數據。
所有現代的瀏覽器都支持最近修改 (last-modified) 的數據檢查。如果你曾經訪問過某頁,一天后重新訪問相同的頁時發現它沒有變化,并奇怪第二次訪問時頁面加載得如此之快——這就是原因所在。你的瀏覽器首次訪問時會在本地緩存頁面內容,當你第二次訪問,瀏覽器自動發送首次訪問時從服務器獲得的最近修改日期。服務器簡單地返回 `304: Not Modified` (沒有修改),因此瀏覽器就會知道從本地緩存加載頁面。在這一點上,Web 服務也如此智能。
Python 的 URL 庫沒有提供內置的最近修改數據檢查支持,但是你可以為每一個請求添加任意的頭信息并在每一個響應中讀取任意頭信息,從而自己添加這種支持。
## 11.3.4.?`ETag`/`If-None-Match`
ETag 是實現與最近修改數據檢查同樣的功能的另一種方法:沒有變化時不重新下載數據。其工作方式是:服務器發送你所請求的數據的同時,發送某種數據的 hash (在 `ETag` 頭信息中給出)。hash 的確定完全取決于服務器。當第二次請求相同的數據時,你需要在 `If-None-Match:` 頭信息中包含 ETag hash,如果數據沒有改變,服務器將返回 `304` 狀態代碼。與最近修改數據檢查相同,服務器_僅僅_ 發送 `304` 狀態代碼;第二次將不為你發送相同的數據。在第二次請求時,通過包含 ETag hash,你告訴服務器:如果 hash 仍舊匹配就沒有必要重新發送相同的數據,因為你還有上一次訪問過的數據。
Python 的 URL 庫沒有對 ETag 的內置支持,但是在本章后面你將看到如何添加這種支持。
## 11.3.5.?壓縮 (Compression)
最后一個重要的 HTTP 特性是 gzip 壓縮。 關于 HTTP web 服務的主題幾乎總是會涉及在網絡線路上傳輸的 XML。XML 是文本,而且還是相當冗長的文本,而文本通常可以被很好地壓縮。當你通過 HTTP 請求一個資源時,可以告訴服務器,如果它有任何新數據要發送給我時,請以壓縮的格式發送。在你的請求中包含 `Accept-encoding: gzip` 頭信息,如果服務器支持壓縮,它將返回由 gzip 壓縮的數據并且使用 `Content-encoding: gzip` 頭信息標記。
Python 的 URL 庫本身沒有內置對 gzip 壓縮的支持,但是你能為請求添加任意的頭信息。Python 還提供了一個獨立的 `gzip` 模塊,它提供了對數據進行解壓縮的功能。
注意我們用于下載 feed 匯聚的[小單行腳本](review.html "11.2.?避免通過 HTTP 重復地獲取數據")并不支持任何這些 HTTP 特性。讓我們來看看如何改善它。
- 版權信息
- 第?1?章?安裝 Python
- 1.1.?哪一種 Python 適合您?
- 1.2.?Windows 上的 Python
- 1.3.?Mac OS X 上的 Python
- 1.4.?Mac OS 9 上的 Python
- 1.5.?RedHat Linux 上的 Python
- 1.6.?Debian GNU/Linux 上的 Python
- 1.7.?從源代碼安裝 Python
- 1.8.?使用 Python 的交互 Shell
- 1.9.?小結
- 第?2?章?第一個 Python 程序
- 2.1.?概覽
- 2.2.?函數聲明
- 2.3.?文檔化函數
- 2.4.?萬物皆對象
- 2.5.?代碼縮進
- 2.6.?測試模塊
- 第?3?章?內置數據類型
- 3.1.?Dictionary 介紹
- 3.2.?List 介紹
- 3.3.?Tuple 介紹
- 3.4.?變量聲明
- 3.5.?格式化字符串
- 3.6.?映射 list
- 3.7.?連接 list 與分割字符串
- 3.8.?小結
- 第?4?章?自省的威力
- 4.1.?概覽
- 4.2.?使用可選參數和命名參數
- 4.3.?使用 type、str、dir 和其它內置函數
- 4.4.?通過 getattr 獲取對象引用
- 4.5.?過濾列表
- 4.6.?and 和 or 的特殊性質
- 4.7.?使用 lambda 函數
- 4.8.?全部放在一起
- 4.9.?小結
- 第?5?章?對象和面向對象
- 5.1.?概覽
- 5.2.?使用 from _module_ import 導入模塊
- 5.3.?類的定義
- 5.4.?類的實例化
- 5.5.?探索 UserDict:一個封裝類
- 5.6.?專用類方法
- 5.7.?高級專用類方法
- 5.8.?類屬性介紹
- 5.9.?私有函數
- 5.10.?小結
- 第?6?章?異常和文件處理
- 6.1.?異常處理
- 6.2.?與文件對象共事
- 6.3.?for 循環
- 6.4.?使用 `sys.modules`
- 6.5.?與目錄共事
- 6.6.?全部放在一起
- 6.7.?小結
- 第?7?章?正則表達式
- 7.1.?概覽
- 7.2.?個案研究:街道地址
- 7.3.?個案研究:羅馬字母
- 7.4.?使用 {n,m} 語法
- 7.5.?松散正則表達式
- 7.6.?個案研究:解析電話號碼
- 7.7.?小結
- 第?8?章?HTML 處理
- 8.1.?概覽
- 8.2.?sgmllib.py 介紹
- 8.3.?從 HTML 文檔中提取數據
- 8.4.?BaseHTMLProcessor.py 介紹
- 8.5.?locals 和 globals
- 8.6.?基于 dictionary 的字符串格式化
- 8.7.?給屬性值加引號
- 8.8.?dialect.py 介紹
- 8.9.?全部放在一起
- 8.10.?小結
- 第?9?章?XML 處理
- 9.1.?概覽
- 9.2.?包
- 9.3.?XML 解析
- 9.4.?Unicode
- 9.5.?搜索元素
- 9.6.?訪問元素屬性
- 9.7.?Segue [9]
- 第?10?章?腳本和流
- 10.1.?抽象輸入源
- 10.2.?標準輸入、輸出和錯誤
- 10.3.?查詢緩沖節點
- 10.4.?查找節點的直接子節點
- 10.5.?根據節點類型創建不同的處理器
- 10.6.?處理命令行參數
- 10.7.?全部放在一起
- 10.8.?小結
- 第?11?章?HTTP Web 服務
- 11.1.?概覽
- 11.2.?避免通過 HTTP 重復地獲取數據
- 11.3.?HTTP 的特性
- 11.4.?調試 HTTP web 服務
- 11.5.?設置 User-Agent
- 11.6.?處理 Last-Modified 和 ETag
- 11.7.?處理重定向
- 11.8.?處理壓縮數據
- 11.9.?全部放在一起
- 11.10.?小結
- 第?12?章?SOAP Web 服務
- 12.1.?概覽
- 12.2.?安裝 SOAP 庫
- 12.3.?步入 SOAP
- 12.4.? SOAP 網絡服務查錯
- 12.5.?WSDL 介紹
- 12.6.?以 WSDL 進行 SOAP 內省
- 12.7.?搜索 Google
- 12.8.? SOAP 網絡服務故障排除
- 12.9.?小結
- 第?13?章?單元測試
- 13.1.?羅馬數字程序介紹 II
- 13.2.?深入
- 13.3.?romantest.py 介紹
- 13.4.?正面測試 (Testing for success)
- 13.5.?負面測試 (Testing for failure)
- 13.6.?完備性檢測 (Testing for sanity)
- 第?14?章?測試優先編程
- 14.1.?roman.py, 第 1 階段
- 14.2.?roman.py, 第 2 階段
- 14.3.?roman.py, 第 3 階段
- 14.4.?roman.py, 第 4 階段
- 14.5.?roman.py, 第 5 階段
- 第?15?章?重構
- 15.1.?處理 bugs
- 15.2.?應對需求變化
- 15.3.?重構
- 15.4.?后記
- 15.5.?小結
- 第?16?章?函數編程
- 16.1.?概覽
- 16.2.?找到路徑
- 16.3.?重識列表過濾
- 16.4.?重識列表映射
- 16.5.?數據中心思想編程
- 16.6.?動態導入模塊
- 16.7.?全部放在一起
- 16.8.?小結
- 第?17?章?動態函數
- 17.1.?概覽
- 17.2.?plural.py, 第 1 階段
- 17.3.?plural.py, 第 2 階段
- 17.4.?plural.py, 第 3 階段
- 17.5.?plural.py, 第 4 階段
- 17.6.?plural.py, 第 5 階段
- 17.7.?plural.py, 第 6 階段
- 17.8.?小結
- 第?18?章?性能優化
- 18.1.?概覽
- 18.2.?使用 timeit 模塊
- 18.3.?優化正則表達式
- 18.4.?優化字典查找
- 18.5.?優化列表操作
- 18.6.?優化字符串操作
- 18.7.?小結
- 附錄?A.?進一步閱讀
- 附錄?B.?五分鐘回顧
- 附錄?C.?技巧和竅門
- 附錄?D.?示例清單
- 附錄?E.?修訂歷史
- 附錄?F.?關于本書
- 附錄 G. GNU Free Documentation License
- G.0. Preamble
- G.1.?Applicability and definitions
- G.2.?Verbatim copying
- G.3.?Copying in quantity
- G.4.?Modifications
- G.5.?Combining documents
- G.6.?Collections of documents
- G.7.?Aggregation with independent works
- G.8.?Translation
- G.9.?Termination
- G.10.?Future revisions of this license
- G.11.?How to use this License for your documents
- 附錄 H. GNU 自由文檔協議
- H.0. 序
- H.1.?適用范圍和定義
- H.2.?原樣復制
- H.3.?大量復制
- H.4.?修改
- H.5.?合并文檔
- H.6.?文檔合集
- H.7.?獨立著作聚集
- H.8.?翻譯
- H.9.?終止協議
- H.10.?協議將來的修訂
- H.11.?如何為你的文檔使用本協議
- 附錄 I. Python license
- I.A. History of the software
- I.B.?Terms and conditions for accessing or otherwise using Python
- 附錄 J. Python 協議
- J.0. 關于譯文的聲明
- J.A.?軟件的歷史
- J.B.?使用 Python 的條款和條件