2.1.6 響應 · python3爬蟲筆記

# 2.1.6 響應 Response，即響應，由服務端返回給客戶端。Response 可以劃分為三部分，Response Status Code、Response Headers、Response Body。 ## Response Status Code {#response-status-code} 響應狀態碼，此狀態碼表示了服務器的響應狀態，如 200 則代表服務器正常響應，404 則代表頁面未找到，500 則代表服務器內部發生錯誤。在爬蟲中，我們可以根據狀態碼來判斷服務器響應狀態，如判斷狀態碼為 200，則證明成功返回數據，再進行進一步的處理，否則直接忽略。下面用表格列出了常見的錯誤代碼及錯誤原因： | 狀態碼 | 說明 | 詳情 | | :--- | :--- | :--- | | 100 | 繼續 | 請求者應當繼續提出請求。服務器已收到請求的一部分，正在等待其余部分。 | | 101 | 切換協議 | 請求者已要求服務器切換協議，服務器已確認并準備切換。 | | 200 | 成功 | 服務器已成功處理了請求。 | | 201 | 已創建 | 請求成功并且服務器創建了新的資源。 | | 202 | 已接受 | 服務器已接受請求，但尚未處理。 | | 203 | 非授權信息 | 服務器已成功處理了請求，但返回的信息可能來自另一來源。 | | 204 | 無內容 | 服務器成功處理了請求，但沒有返回任何內容。 | | 205 | 重置內容 | 服務器成功處理了請求，內容被重置。 | | 206 | 部分內容 | 服務器成功處理了部分請求。 | | 300 | 多種選擇 | 針對請求，服務器可執行多種操作。 | | 301 | 永久移動 | 請求的網頁已永久移動到新位置，即永久重定向。 | | 302 | 臨時移動 | 請求的網頁暫時跳轉到其他頁面，即暫時重定向。 | | 303 | 查看其他位置 | 如果原來的請求是 POST，重定向目標文檔應該通過 GET 提取。 | | 304 | 未修改 | 此次請求返回的網頁未修改，繼續使用上次的資源。 | | 305 | 使用代理 | 請求者應該使用代理訪問該網頁。 | | 307 | 臨時重定向 | 請求的資源臨時從其他位置響應。 | | 400 | 錯誤請求 | 服務器無法解析該請求。 | | 401 | 未授權 | 請求沒有進行身份驗證或驗證未通過。 | | 403 | 禁止訪問 | 服務器拒絕此請求。 | | 404 | 未找到 | 服務器找不到請求的網頁。 | | 405 | 方法禁用 | 服務器禁用了請求中指定的方法。 | | 406 | 不接受 | 無法使用請求的內容響應請求的網頁。 | | 407 | 需要代理授權 | 請求者需要使用代理授權。 | | 408 | 請求超時 | 服務器請求超時。 | | 409 | 沖突 | 服務器在完成請求時發生沖突。 | | 410 | 已刪除 | 請求的資源已永久刪除。 | | 411 | 需要有效長度 | 服務器不接受不含有效內容長度標頭字段的請求。 | | 412 | 未滿足前提條件 | 服務器未滿足請求者在請求中設置的其中一個前提條件。 | | 413 | 請求實體過大 | 請求實體過大，超出服務器的處理能力。 | | 414 | 請求 URI 過長 | 請求網址過長，服務器無法處理。 | | 415 | 不支持類型 | 請求的格式不受請求頁面的支持。 | | 416 | 請求范圍不符 | 頁面無法提供請求的范圍。 | | 417 | 未滿足期望值 | 服務器未滿足期望請求標頭字段的要求。 | | 500 | 服務器內部錯誤 | 服務器遇到錯誤，無法完成請求。 | | 501 | 未實現 | 服務器不具備完成請求的功能。 | | 502 | 錯誤網關 | 服務器作為網關或代理，從上游服務器收到無效響應。 | | 503 | 服務不可用 | 服務器目前無法使用。 | | 504 | 網關超時 | 服務器作為網關或代理，但是沒有及時從上游服務器收到請求。 | | 505 | HTTP 版本不支持 | 服務器不支持請求中所用的 HTTP 協議版本。 | ## Response Headers {#response-headers} 響應頭，其中包含了服務器對請求的應答信息，如 Content-Type、Server、Set-Cookie 等，下面將一些常用的頭信息說明如下： * Date，標識 Response 產生的時間。 * Last-Modified，指定資源的最后修改時間。 * Content-Encoding，指定 Response 內容的編碼。 * Server，包含了服務器的信息，名稱，版本號等。 * Content-Type，文檔類型，指定了返回的數據類型是什么，如text/html 則代表返回 HTML 文檔，application/x-javascript 則代表返回 JavaScript 文件，image/jpeg 則代表返回了圖片。 * Set-Cookie，設置Cookie，Response Headers 中的 Set-Cookie即告訴瀏覽器需要將此內容放在 Cookies 中，下次請求攜帶 Cookies 請求。 * Expires，指定 Response 的過期時間，使用它可以控制代理服務器或瀏覽器將內容更新到緩存中，如果再次訪問時，直接從緩存中加載，降低服務器負載，縮短加載時間。 ## Resposne Body {#resposne-body} 即響應體，最重要的當屬響應體內容了，響應的正文數據都是在響應體中，如請求一個網頁，它的響應體就是網頁的 HTML 代碼，請求一張圖片，它的響應體就是圖片的二進制數據。所以最主要的數據都包含在響應體中了，我們做爬蟲請求網頁后要解析的內容就是解析響應體 ![](https://box.kancloud.cn/c3e420ad56ef77d7cfd1205c3404dd9b_2048x582.png) 我們在瀏覽器開發者工具中點擊 Preview，就可以看到網頁的源代碼，這也就是響應體內容，是解析的目標。我們在做爬蟲時主要解析的內容就是 Resposne Body，通過 Resposne Body 我們可以得到網頁的源代碼、Json 數據等等，然后從中做相應內容的提取。