爬蟲流程介紹 · 網絡爬蟲知識匯總

# 爬蟲流程介紹 ### feed節點爬蟲系統至少有一個feed頁面，通過訪問這一個feed頁面，獲取相關鏈接。互聯網可以理解成是一張網，網就有一個一個都節點，每一個網頁我們都可以把它理解成是一個節點。feed頁面就是我們覺得非常有價值的節點，通過這個節點能夠獲取對對我們來講非常有價值的信息。爬蟲系統就是一個不斷爬取新內容對一個過程，如果一個爬蟲系統一天到晚對爬出來對都是老內容，那么這個系統也就沒有了存在對意義。 ### “爬” 如何形象的理解爬蟲對這個“爬”字，我感覺把爬蟲翻譯成業務邏輯，就是一個發現新鏈接對過程，如果不對爬蟲加以限制，那么這個爬對動作就會一直執行，直到這張網對每一個節點都爬過了位置。不過我們目前設計的大部分爬蟲系統都是針對于某個垂直領域的，不會讓這個爬蟲無限制的爬下去，會對需要爬的網頁做一下甄別。 ### 網頁“爬”狀態判斷舉個簡單的例子，假設現在整個互聯網只有100個網頁，以一個網頁作為爬蟲的feed，如果不對已經爬過的網頁進行處理，那么爬蟲就會無限循環下去。造成爬蟲任務無法結束。