爬蟲種類 · TUNA-daily

[TOC] ## 1. 爬蟲種類 1.通用爬蟲：搜索引擎用的爬蟲系統。 > * 目標：就是盡可能把互聯網上所有的網頁下載下來，放到本地服務器里形成備份，再對這些網頁做相關處理（提取關鍵字、去掉廣告），最后提供一個用戶檢索接口。例如:百度快照，即使資源被刪了，也能查看 ![](https://box.kancloud.cn/3968ad8b45908fa386a88a0162971b2f_702x221.png) > * 抓取流程： a) 首選選取一部分已有的URL，把這些URL放到待爬取隊列。 b) 從隊列里取出這些URL，然后解析DNS得到主機IP，然后去這個IP對應的服務器里下載HTML頁面，保存到搜索引擎的本地服務器。之后把這個爬過的URL放入已爬取隊列。 c) 分析這些網頁內容，找出網頁里其他的URL連接，繼續執行第二步，直到爬取條件結束。 > * 搜索引擎如何獲取一個新網站的URL： 1. 主動向搜索引擎提交網址：http://zhanzhang.baidu.com/linksubmit/url 2. 在其他網站里設置網站的外鏈。 3. 搜索引擎會和DNS服務商進行合作，可以快速收錄新的網站。 DNS：就是把域名解析成IP的一種技術。 > * 通用爬蟲并不是萬物皆可爬，它也需要遵守規則： Robots協議：協議會指明通用爬蟲可以爬取網頁的權限。 Robots.txt 只是一個建議。并不是所有爬蟲都遵守，一般只有大型的搜索引擎爬蟲才會遵守。咱們個人寫的爬蟲，就不管了。 > * 通用爬蟲工作流程：爬取網頁 - 存儲數據 - 內容處理 - 提供檢索/排名服務 > * 搜索引擎排名： 1. PageRank值：根據網站的流量（點擊量/瀏覽量/人氣）統計，流量越高，網站也越值錢，排名越靠前。 2. 競價排名：誰給錢多，誰排名就高。 > * 通用爬蟲的缺點： 1. 只能提供和文本相關的內容（HTML、Word、PDF）等等，但是不能提供多媒體文件（音樂、圖片、視頻）和二進制文件（程序、腳本）等等。 2. 提供的結果千篇一律，不能針對不同背景領域的人提供不同的搜索結果。 3. 不能理解人類語義上的檢索。為了解決這個問題，聚焦爬蟲出現了： 2. 聚焦爬蟲：爬蟲程序員寫的針對某種內容的爬蟲。 > 面向主題爬蟲，面向需求爬蟲：會針對某種特定的內容去爬取信息，而且會保證信息和需求盡可能相關。