爬蟲的基本原理 · 蟲師de江湖

[TOC] # 爬蟲的基本原理 > 爬蟲可以理解為模擬用戶在瀏覽器或者某個應用上的操作，把操作的過程、實現自動化的程序或腳本。爬蟲是如何實現的呢？想知道如何實現爬蟲，需要先了解在瀏覽網頁的時候都發生了什么事情？**知其然，更要知其所以然！** 接下來我們通過示例說明實現爬蟲的基本原理。 ## 當我們在瀏覽器中輸入網址`www.baidu.com`后回車發生了什么？我們來看看這張圖： ![瀏覽網頁流程](https://img.kancloud.cn/d5/95/d59508d0a5696ec0a64814f08c75ee0b_647x491.png =400x) **瀏覽器與服務器之間的交互過程說明：** 1. 瀏覽器詢問DNS服務器獲取`www.baidu.com`的真實IP地址； 2. 返回真實的IP地址給瀏覽器； 3. 瀏覽器使用`真實IP地址`連接`www.baidu.com`的Web服務器，請求頁面數據。 4. `www.baidu.com`的Web服務器接收到這個請求后，響應并返回頁面文檔數據給瀏覽器。 5. 可以愉快的看到頁面啦。 **整個過程中的關鍵信息為：** 1. 瀏覽器與服務器之間的網絡通信協議： HTTP協議 2. 瀏覽器與服務器之間的數據格式： HTML超文本標記格式 `HTTP協議` 的作用是建立`瀏覽器`與`Web服務器`之間的通信連接通道，這個通信通道可以傳一段文本信息、一個圖片或者一個文件都可以。這是數據傳輸的基礎。 `HTML超文本標記語言格式` 的作用是告訴`瀏覽器`應該如何顯示收到的文檔數據。 >注：暫時忽略DNS服務器交互過程，這與爬蟲邏輯無關，它只于獲取IP地址速度有關。 --- **爬蟲原理本質？** 如果理解了上面的示例交互過程，那么對于理解`爬蟲`的本質就不難了。我們的`爬蟲`本質就是在使用`HTTP協議` 來模擬瀏覽器行為與`Web服務器`交互獲取`HTML`頁面數據并解析處理的工具。那么`HTTP協議`到底是什么呢？`HTML超文本標記語言`又是怎樣描述Web頁面的呢？接下來我們就來一個一個的學習。提升自己的內功就在于點滴的積累。