2.1.5 請求 · python3爬蟲筆記

# 2.1.5 請求 ## Request Request，即請求，由客戶端向服務端發出。 Request 有四部分內容： * Request Method\(請求方式\) * Request URL\(請求鏈接\) * Request Headers\(請求頭\) * Request Body\(請求體\) ## Request Method 請求方式中有兩種常見的類型:GET和POST _GET:_從指定的資源請求數據。比如在谷歌中直接搜索花，這便發起了一個get請求，請求的參數會直接包含到url中，如:[https://www.google.com.hk/search?q=花&oq=花&aqs=chrome..69i57j69i60l4.5466j0j7&sourceid=chrome&ie=UTF-8，url中包含了請求的參數信息，這里的參數q就是搜索的關鍵字](https://www.google.com.hk/search?q=花&oq=花&aqs=chrome..69i57j69i60l4.5466j0j7&sourceid=chrome&ie=UTF-8，url中包含了請求的參數信息，這里的參數q就是搜索的關鍵字) _POST:_向指定的資源提交要被處理的數據。POST 請求大多為表單提交發起，如一個登錄表單，輸入用戶名密碼，點擊登錄按鈕，這通常會發起一個 POST 請求，其數據通常以 Form Data 即表單的形式傳輸，不會體現在 URL 中。 GET 和 POST 請求方法有如下區別： * GET 方式請求中參數是包含在 URL 里面的，數據可以在 URL 中看到，而 POST 請求的 URL 不會包含這些數據，數據都是通過表單的形式傳輸，會包含在 Request Body 中。 * GET 方式請求提交的數據最多只有 1024 字節，而 POST 方式沒有限制。請求方式以及描述 | 方法 | | :--- | | | 描述 | | :--- | :--- | | GET | 請求指定的頁面信息，并返回實體主體。 | | HEAD | 類似于 GET 請求，只不過返回的響應中沒有具體的內容，用于獲取報頭。 | | POST | 向指定資源提交數據進行處理請求，數據被包含在請求體中。 | | PUT | 從客戶端向服務器傳送的數據取代指定的文檔的內容。 | | DELETE | 請求服務器刪除指定的頁面。 | | CONNECT | HTTP/1.1 協議中預留給能夠將連接改為管道方式的代理服務器。 | | OPTIONS | 允許客戶端查看服務器的性能。 | | TRACE | 回顯服務器收到的請求，主要用于測試或診斷。 | 本表參考：[http://www.runoob.com/http/http-methods.html](http://www.runoob.com/http/http-methods.html) ### Request URL {#request-url} 請求的網址，即統一資源定位符，用 URL 可以唯一確定我們想請求的資源。 ### Request Headers {#request-headers} 請求頭，用來說明服務器要使用的附加信息，比較重要的信息有 Cookie、Referer、User-Agent 等，下面將一些常用的頭信息說明如下： * Accept，請求報頭域，用于指定客戶端可接受哪些類型的信息。 * Accept-Language，指定客戶端可接受的語言類型。 * Accept-Encoding，指定客戶端可接受的內容編碼。 * Host，用于指定請求資源的主機 IP 和端口號，其內容為請求 URL 的原始服務器或網關的位置。從 HTTP 1.1 版本開始，Request 必須包含此內容。 * Cookie，也常用復數形式 Cookies，是網站為了辨別用戶進行 Session 跟蹤而儲存在用戶本地的數據。Cookies 的主要功能就是維持當前訪問會話。 * Referer，此內容用來標識這個請求是從哪個頁面發過來的，服務器可以拿到這一信息并做相應的處理，如做來源統計、做防盜鏈處理等。 * User-Agent，簡稱 UA，它是一個特殊字符串頭，使得服務器能夠識別客戶使用的操作系統及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息可以偽裝為瀏覽器，如果不加很可能會被識別出為爬蟲。 * Content-Type，即 Internet Media Type，互聯網媒體類型，也叫做 MIME 類型，在 HTTP 協議消息頭中，使用它來表示具體請求中的媒體類型信息。例如 text/html 代表 HTML 格式，image/gif 代表 GIF 圖片，application/json 代表 Json 類型，更多對應關系可以查看此對照表：[http://tool.oschina.net/commons](http://tool.oschina.net/commons)。 Request Headers 是 Request 等重要組成部分，在寫爬蟲的時候大部分情況都需要設定 Request Headers。 ### Request Body {#request-body} 即請求體，一般承載的內容是 POST 請求中的 Form Data，即表單數據，而對于 GET 請求 Request Body 則為空。下面列出了 Content-Type 和 POST 提交數據方式的關系： | Content-Type | 提交數據方式 | | :--- | :--- | | application/x-www-form-urlencoded | Form 表單提交 | | multipart/form-data | 表單文件上傳提交 | | application/json | 序列化 Json 數據提交 | | text/xml | XML 數據提交 | 在爬蟲中如果我們要構造 POST 請求需要注意這幾種 Content-Type，了解各種請求庫的各個參數設置時使用的是哪種 Content-Type，不然可能會導致 POST 提交后得不到正常的 Response。