爬蟲是什么 · 蟲師de江湖

[TOC] # 爬蟲是什么 **爬蟲** 在網絡中全稱為**網絡爬蟲**，它可以是一個或一組`程序`/`腳本`， `爬蟲`運行后，可以從網絡中的非結構化數據頁面中提取并轉化為結構化數據。獲取到的結構化數據將用于后續的有價值的分析處理。在**江湖**中，它的獨門絕技可以稱之為“**北冥神功**”，吸取一切為我所用。只要內力深厚，天下一切皆為我吸收所用。下圖是一個蜘蛛(spider)，我們的`爬蟲`就像它一樣沿著蜘蛛的網按照一定規則爬來爬去。這個爬來爬去的規則就是**爬蟲規則**。而爬來爬去獲取到的小蚊子就是**爬蟲目標數據**。 ![a_real_spider](https://img.kancloud.cn/1c/83/1c83f7ff83a0b83fc646a4247e8224ae_597x388.jpeg) --- 按照使用場景可分類為：**`通用爬蟲` 和 `專用爬蟲`** ## 通用爬蟲我們常用的搜索引擎是一種`通用爬蟲`，側重通用性的全網頁面爬取，而不是針對不同類型頁面的數據進行詳細的提取處理。因而我們常常是通過搜索關鍵詞作為入口來搜索到關鍵詞相關聯的鏈接地址，具體這里的數據是什么格式通常通用爬蟲是不會關心的。 ## 專用爬蟲針對特定頁面或網站而開發的的爬蟲，會對頁面的數據進行有效篩選、處理分析等操作，并且持久化到數據庫或者磁盤文件中。我們今后要了解的爬蟲就是此類`專用爬蟲`。