服務端HTTP響應 · Python爬蟲

HTTP響應也由四個部分組成，分別是：狀態? 、消息報頭、空? 、響應正?。 ``` HTTP/1.1 200 OK Bdpagetype: 1 Bdqid: 0xdbeb11ea000cfef4 Cache-Control: private Connection: keep-alive Content-Encoding: gzip Content-Type: text/html Cxy_all: baidu+642857607c537ed21fa04bcfb54ff6ee Date: Thu, 02 Jan 2020 06:32:55 GMT Expires: Thu, 02 Jan 2020 06:32:51 GMT Server: BWS/1.1 Set-Cookie: delPer=0; path=/; domain=.baidu.com Set-Cookie: BDSVRTM=6; path=/ Set-Cookie: BD_HOME=0; path=/ Set-Cookie: H_PS_PSSID=1448_21096_30210_30283_30504; path=/; domain=.ba Strict-Transport-Security: max-age=172800 Traceid: 1577946775028760116215846779410554093300 Vary: Accept-Encoding X-Ua-Compatible: IE=Edge,chrome=1 Transfer-Encoding: chunked ``` **常?的響應報頭(了解)：** **1. Cache-Control：must-revalidate, no-cache, private** 這個值告訴客戶端，服務端不希望客戶端緩存資源，在下次請求資源時，必須要從新請求服務器，不能從緩存副本中獲取資源。 **2. Connection：keep-alive** 這個字段作為回應客戶端的`Connection：keep-alive`，告訴客戶端服務器的 tcp連接也是?個?連接，客戶端可以繼續使?這個tcp連接發送http請求。 **3. Content-Encoding:gzip** 告訴客戶端，服務端發送的資源是采?gzip編碼的，客戶端看到這個信息后，應該采?gzip對資源進?解碼。 **4. Content-Type：text/html;charset=UTF-8** 告訴客戶端，資源?件的類型，還有字符編碼，客戶端通過utf-8對資源進?解碼，然后對資源進?html解析。通常我們會看到有些?站是亂碼的，往往就是服務器端沒有返回正確的編碼。 **5. Date: Thu, 02 Jan 2020 06:32:55 GMT** 這個是服務端發送資源時的服務器時間，GMT是格林尼治所在地的標準時間。 http協議中發送的時間都是GMT的，這主要是解決在互聯?上，不同時區在相互請求資源的時候，時間混亂問題。 **響應狀態碼:** 響應狀態代碼有三位數字組成，第?個數字定義了響應的類別，且有五種可能取值。 常?狀態碼： * `100~199`：表示服務器成功接收部分請求，要求客戶端繼續提交其余請求才能完成整個處理過程。 * `200~299`：表示服務器成功接收請求并已完成整個處理過程。常? 200（OK 請求成功）。 * `300~399`：為完成請求，客戶需進?步細化請求。例如：請求的資源已經移動?個新地址、常?302（所請求的??已經臨時轉移?新的url）、 307和304（使?緩存資源）。 * `400~499`：客戶端的請求有錯誤，常?404（服務器?法找到被請求的? ?）、403（服務器拒絕訪問，權限不夠）。 * `500~599`：服務器端出現錯誤，常?500（請求未完成。服務器遇到不可預知的情況）。