<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??碼云GVP開源項目 12k star Uniapp+ElementUI 功能強大 支持多語言、二開方便! 廣告
                [TOC] ## 1. 爬蟲種類 1.通用爬蟲:搜索引擎用的爬蟲系統。 > * 目標: 就是盡可能把互聯網上所有的網頁下載下來,放到本地服務器里形成備份, 再對這些網頁做相關處理(提取關鍵字、去掉廣告),最后提供一個用戶檢索接口。 例如:百度快照,即使資源被刪了,也能查看 ![](https://box.kancloud.cn/3968ad8b45908fa386a88a0162971b2f_702x221.png) > * 抓取流程: a) 首選選取一部分已有的URL,把這些URL放到待爬取隊列。 b) 從隊列里取出這些URL,然后解析DNS得到主機IP,然后去這個IP對應的服務器里下載HTML頁面,保存到搜索引擎的本地服務器。 之后把這個爬過的URL放入已爬取隊列。 c) 分析這些網頁內容,找出網頁里其他的URL連接,繼續執行第二步,直到爬取條件結束。 > * 搜索引擎如何獲取一個新網站的URL: 1. 主動向搜索引擎提交網址:http://zhanzhang.baidu.com/linksubmit/url 2. 在其他網站里設置網站的外鏈。 3. 搜索引擎會和DNS服務商進行合作,可以快速收錄新的網站。 DNS:就是把域名解析成IP的一種技術。 > * 通用爬蟲并不是萬物皆可爬,它也需要遵守規則: Robots協議:協議會指明通用爬蟲可以爬取網頁的權限。 Robots.txt 只是一個建議。并不是所有爬蟲都遵守,一般只有大型的搜索引擎爬蟲才會遵守。 咱們個人寫的爬蟲,就不管了。 > * 通用爬蟲工作流程:爬取網頁 - 存儲數據 - 內容處理 - 提供檢索/排名服務 > * 搜索引擎排名: 1. PageRank值:根據網站的流量(點擊量/瀏覽量/人氣)統計,流量越高,網站也越值錢,排名越靠前。 2. 競價排名:誰給錢多,誰排名就高。 > * 通用爬蟲的缺點: 1. 只能提供和文本相關的內容(HTML、Word、PDF)等等,但是不能提供多媒體文件(音樂、圖片、視頻)和二進制文件(程序、腳本)等等。 2. 提供的結果千篇一律,不能針對不同背景領域的人提供不同的搜索結果。 3. 不能理解人類語義上的檢索。 為了解決這個問題,聚焦爬蟲出現了: 2. 聚焦爬蟲:爬蟲程序員寫的針對某種內容的爬蟲。 > 面向主題爬蟲,面向需求爬蟲:會針對某種特定的內容去爬取信息,而且會保證信息和需求盡可能相關。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看