<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                [TOC] # 爬蟲的基本原理 > 爬蟲可以理解為模擬用戶在瀏覽器或者某個應用上的操作,把操作的過程、實現自動化的程序或腳本。 爬蟲是如何實現的呢? 想知道如何實現爬蟲,需要先了解在瀏覽網頁的時候都發生了什么事情?**知其然,更要知其所以然!** 接下來我們通過示例說明實現爬蟲的基本原理。 ## 當我們在瀏覽器中輸入網址`www.baidu.com`后回車發生了什么? 我們來看看這張圖: ![瀏覽網頁流程](https://img.kancloud.cn/d5/95/d59508d0a5696ec0a64814f08c75ee0b_647x491.png =400x) **瀏覽器與服務器之間的交互過程說明:** 1. 瀏覽器詢問DNS服務器獲取`www.baidu.com`的真實IP地址; 2. 返回真實的IP地址給瀏覽器; 3. 瀏覽器使用`真實IP地址`連接`www.baidu.com`的Web服務器,請求頁面數據。 4. `www.baidu.com`的Web服務器接收到這個請求后,響應并返回頁面文檔數據給瀏覽器。 5. 可以愉快的看到頁面啦。 **整個過程中的關鍵信息為:** 1. 瀏覽器與服務器之間的網絡通信協議: HTTP協議 2. 瀏覽器與服務器之間的數據格式: HTML超文本標記格式 `HTTP協議` 的作用是建立`瀏覽器`與`Web服務器`之間的通信連接通道, 這個通信通道可以傳一段文本信息、一個圖片或者一個文件都可以。這是數據傳輸的基礎。 `HTML超文本標記語言格式` 的作用是告訴`瀏覽器`應該如何顯示收到的文檔數據。 >注:暫時忽略DNS服務器交互過程,這與爬蟲邏輯無關,它只于獲取IP地址速度有關。 --- **爬蟲原理本質?** 如果理解了上面的示例交互過程,那么對于理解`爬蟲`的本質就不難了。 我們的`爬蟲`本質就是在使用`HTTP協議` 來模擬瀏覽器行為與`Web服務器`交互獲取`HTML`頁面數據并解析處理的工具。 那么`HTTP協議`到底是什么呢?`HTML超文本標記語言`又是怎樣描述Web頁面的呢? 接下來我們就來一個一個的學習。提升自己的內功就在于點滴的積累。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看