通用爬蟲 · Python爬蟲

通??絡爬?是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要?的是將互聯?上的??下載到本地，形成?個互聯?內容的鏡像備份。 **通?搜索引擎（Search Engine）?作原理:** 通??絡爬? 從互聯?中搜集??，采集信息，這些??信息?于為搜索引擎建?索引從?提供?持，它決定著整個引擎系統的內容是否豐富，信息是否即時，因此其性能的優劣直接影響著搜索引擎的效果。 **第?步：抓取網頁** 搜索引擎?絡爬?的基本?作流程如下： 1. ?先選取?部分的種?URL，將這些URL放?待抓取URL隊列； 2. 取出待抓取URL，解析DNS得到主機的IP，并將URL對應的??下載下來，存儲進已下載??庫中，并且將這些URL放進已抓取URL隊列。 3. 分析已抓取URL隊列中的URL，分析其中的其他URL，并且將URL放?待抓取URL隊列，從?進?下?個循環.... :-: ![](https://img.kancloud.cn/00/0b/000b2a605aecab2a99f04a016236c24e_335x450.png) 通用網絡爬蟲工作流程圖搜索引擎如何獲取?個新?站的URL：（1）新?站向搜索引擎主動提交?址：（如百度 http://zhanzhang.baidu.com/linksubmit/url）。（2）在其他?站上設置新?站外鏈（盡可能處于搜索引擎爬?爬取范圍）。（3）搜索引擎和DNS解析服務商(如DNSPod等）合作，新?站域名將被迅速抓取。 Robots協議: Robots協議（也叫爬?協議、機器?協議等），全稱是?絡爬?排除標準（Robots Exclusion Protocol），?站通過Robots協議告訴搜索引擎哪些 ??可以抓取，哪些??不能抓取。例如：淘寶?：https://www.taobao.com/robots.txt 騰訊?： http://www.qq.com/robots.txt Robots協議只是一種君子約定，從技術層面來講它不具備反爬蟲功能。 **第?步：數據存儲** 搜索引擎通過爬?爬取到的??，將數據存?原始??數據庫。其中的??數據與?戶瀏覽器得到的HTML是完全?樣的。 搜索引擎蜘蛛在抓取??時，也做?定的重復內容檢測，?旦遇到訪問權重很低的?站上有?量抄襲、采集或者復制的內容，很可能就不再爬?。 **第三步：預處理** 搜索引擎將爬?抓取回來的??，進?各種步驟的預處理。 * 提取?字 * 中?分詞 * 消除噪?（?如版權聲明?字、導航條、?告等……） * 索引處理 * 鏈接關系計算 * 特殊?件處理 **第四步：提供檢索服務，?站排名** 搜索引擎在對信息進?組織和處理后，為?戶提供關鍵字檢索服務，將?戶檢索相關的信息展示給?戶。 同時會根據??的PageRank值（鏈接的訪問量排名）來進??站排名，這樣 Rank值?的?站在搜索結果中會排名較前，當然也可以直接使? Money 購買搜索引擎?站排名，簡單粗暴。 ![](https://img.kancloud.cn/27/b1/27b1719afdcf42854d6f78775d8eb3b3_957x406.png)