004.抓取策略 · 3天入門SEO

網頁的抓取策略可以分為深度優先、廣度優先和最佳優先三種。深度優先在很多情況下會導致爬蟲的陷入(trapped)問題，目前常見的是廣度優先和最佳優先方法。 * * * * * ### 廣度優先搜索 * * * * * 廣度優先搜索策略是指在抓取過程中，在完成當前層次的搜索后，才進行下一層次的搜索。該算法的設計和實現相對簡單。在目前為覆蓋盡可能多的網頁，一般使用廣度優先搜索方法。也有很多研究將廣度優先搜索策略應用于聚焦爬蟲中。其基本思想是認為與初始URL在一定鏈接距離內的網頁具有主題相關性的概率很大。另外一種方法是將廣度優先搜索與網頁過濾技術結合使用，先用廣度優先策略抓取網頁，再將其中無關的網頁過濾掉。這些方法的缺點在于，隨著抓取網頁的增多，大量的無關網頁將被下載并過濾，算法的效率將變低。 * * * * * ### 最佳優先搜索 * * * * * 最佳優先搜索策略按照一定的網頁分析算法，預測候選URL與目標網頁的相似度，或與主題的相關性，并選取評價最好的一個或幾個URL進行抓取。它只訪問經過網頁分析算法預測為“有用”的網頁。存在的一個問題是，在爬蟲抓取路徑上的很多相關網頁可能被忽略，因為最佳優先策略是一種局部最優搜索算法。因此需要將最佳優先結合具體的應用進行改進，以跳出局部最優點。將在第4節中結合網頁分析算法作具體的討論。研究表明，這樣的閉環調整可以將無關網頁數量降低30%~90%。 * * * * * ### 深度優先搜索 * * * * * 深度優先搜索策略從起始網頁開始，選擇一個URL進入，分析這個網頁中的URL，選擇一個再進入。如此一個鏈接一個鏈接地抓取下去，直到處理完一條路線之后再處理下一條路線。深度優先策略設計較為簡單。然而門戶網站提供的鏈接往往最具價值，PageRank也很高，但每深入一層，網頁價值和PageRank都會相應地有所下降。這暗示了重要網頁通常距離種子較近，而過度深入抓取到的網頁卻價值很低。同時，這種策略抓取深度直接影響著抓取命中率以及抓取效率，對抓取深度是該種策略的關鍵。相對于其他兩種策略而言。此種策略很少被使用。