客戶端HTTP請求 · Python爬蟲

URL只是標識資源的位置，?HTTP是?來提交和獲取資源。客戶端發送?個 HTTP請求到服務器的請求消息，包括以下格式：請求?、請求頭部、空?、請求數據四個部分組成，下圖給出了請求報?的?般格式。 :-: ![](https://img.kancloud.cn/52/1c/521c2d862e5c0c3ce636d64eabb57c53_698x238.png) **?個典型的HTTP請求示例** ``` GET / HTTP/1.1 Host: www.baidu.com Connection: keep-alive Cache-Control: max-age=0 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.3 Sec-Fetch-Mode: navigate Sec-Fetch-User: ?1 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/web Sec-Fetch-Site: same-origin Referer: https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=bai Accept-Encoding: gzip, deflate, br Accept-Language: zh-CN,zh;q=0.9 Cookie: BIDUPSID=4049831E3DB8DE890DFFCA6103FF02C1; ``` **請求?法** 根據HTTP標準，HTTP請求可以使?多種請求?法。 HTTP 0.9：只有基本的?本 GET 功能。 HTTP 1.0：完善的請求/響應模型，并將協議補充完整，定義了三種請求?法： GET, POST 和 HEAD?法。 HTTP 1.1：在 1.0 基礎上進?更新，新增了五種請求?法：OPTIONS, PUT, DELETE, TRACE 和 CONNECT ?法。 HTTP 2.0（未普及）：請求/響應?部的定義基本沒有改變，只是所有?部鍵必須全部?寫，?且請求?要獨?為 :method、:scheme、:host、:path這些鍵值對。 :-: **HTTP請求方法類型** | 序號 | ?法 | 描述 | | --- | --- | --- | | 1 | GET | 請求指定的??信息，并返回實體主體。 | | 2 | HEAD | 類似于get請求，只不過返回的響應中沒有具體的內容，?于獲取報頭 | | 3 | POST | 向指定資源提交數據進?處理請求（例如提交表單或者上傳? 件），數據被包含在請求體中。 POST請求可能會導致新的資源的建?和/或已有資源的修改。 | | 4 | PUT | 從客戶端向服務器傳送的數據取代指定的?檔的內容。 | | 5 | DELETE | 請求服務器刪除指定的??。 | | 6 | CONNECT | HTTP/1.1協議中預留給能夠將連接改為管道?式的代理服務器。 | | 7 | OPTIONS | 允許客戶端查看服務器的性能。 | | 8 | TRACE | 回顯服務器收到的請求，主要? 于測試或診斷。 | **HTTP請求主要分為Get和Post兩種?法** * GET是從服務器上獲取數據，POST是向服務器傳送數據 * GET請求參數顯示，都顯示在瀏覽器?址上，HTTP服務器根據該請求所包含URL中的參數來產?響應內容，即Get請求的參數是URL的?部分。例如： http://www.baidu.com/s?wd=Chinese * POST請求參數在請求體當中，消息?度沒有限制?且以隱式的?式進? 發送，通常?來向HTTP服務器提交量?較?的數據（?如請求中包含許多參數或者?件上傳操作等），請求的參數包含在“Content-Type”消息頭?，指明該消息體的媒體類型和編碼 **常?的請求報頭:** **1. Host (主機和端?號)** Host：對應?址URL中的Web名稱和端?號，?于指定被請求資源的Internet 主機和端?號，通常屬于URL的?部分。 **2. Connection (鏈接類型)** Connection：表示客戶端與服務連接類型（1）Client 發起?個包含 Connection:keep-alive 的請求，HTTP/1.1使 ? keep-alive 為默認值。（2）Server收到請求后： * 如果 Server ?持 keep-alive，回復?個包含 Connection:keep- alive 的響應，不關閉連接； * 如果 Server 不?持 keep-alive，回復?個包含 Connection:close 的響應，關閉連接。（3）如果client收到包含 Connection:keep-alive 的響應，向同?個連接發送下?個請求，直到??主動關閉連接。 **3. Upgrade-Insecure-Requests (升級為HTTPS請求)** Upgrade-Insecure-Requests：升級不安全的請求，意思是會在加載 http 資源時?動替換成 https 請求，讓瀏覽器不再顯示https??中的http請求警報。 **4. User-Agent (瀏覽器名稱)** User-Agent：是客戶瀏覽器的名稱 **5. Accept (傳輸?件類型)** Accept：指瀏覽器或其他客戶端可以接受的MIME（Multipurpose Internet Mail Extensions（多?途互聯?郵件擴展））?件類型，服務器可以根據它判斷并返回適當的?件格式。 `Accept: */* `：表示什么都可以接收。 `Accept：image/gif` ：表明客戶端希望接受GIF圖像格式的資源； `Accept：text/html` ：表明客戶端希望接受html?本。 `Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8` ：表示瀏覽器?持的 MIME 類型分別是 html?本、xhtml和 xml?檔、所有的圖像格式資源。 **6. Referer (??跳轉處)** Referer：表明產?請求的??來?于哪個URL，?戶是從該 Referer??訪問到當前請求的??。這個屬性可以?來跟蹤Web請求來?哪個??，是從什么?站來的等。 **7. Accept-Encoding（?件編解碼格式）** Accept-Encoding：指出瀏覽器可以接受的編碼?式。編碼?式不同于?件格式，它是為了壓縮?件并加速?件傳遞速度。瀏覽器在接收到Web響應之后先解碼，然后再檢查?件格式，許多情形下這可以減少?量的下載時間。 **8. Accept-Language（語?種類）** Accept-Langeuage：指出瀏覽器可以接受的語?種類，如en或en-us指英語，zh或者zh-cn指中?，當服務器能夠提供?種以上的語?版本時要?到。 **9. Accept-Charset（字符編碼）** Accept-Charset：指出瀏覽器可以接受的字符編碼。 **10. Cookie （Cookie）** Cookie：瀏覽器?這個屬性向服務器發送Cookie。Cookie是在瀏覽器中寄存的?型數據體，它可以記載和服務器相關的?戶信息。 **11. Content-Type (POST數據類型)** Content-Type：POST請求??來表示的內容類型。