seo · 陸陸續續記錄

## 搜索引擎工作原理是什么 SEOer們要想更好的理解SEO，做好SEO的工作，學習和理解搜索引擎的基本架構和原理，是非常有必要的，下面我來講一下搜索引擎的一些組成部分。通用的搜索引擎，一般包含了以下一些功能模塊： 1. 蜘蛛，即Spider，類似瀏覽器的程序，專門用來下載web頁面 2. 爬蟲，即Crawler，用來自動跟蹤所有頁面中的鏈接 3. 索引，即Indexer，專門用來分析蜘蛛和爬蟲下載下來的web頁面 4. 數據庫，存儲下載的頁面信息和處理過的頁面信息 5. 結果引擎，從數據庫中抽取出搜索結果 6. Web服務器，用來處理用戶的搜索交互請求的web服務器不同的搜索引擎實現，某些地方可能有一定的差別，比如，蜘蛛+爬出+索引的組合功能就是通過一個單一的程序來實現的，它一邊下載頁面，一邊分析出結果，并利用已有的鏈接來發現新的資源。當然，這些功能都是所有搜索引擎所固有的，所體現的SEO原則都是類似的。下面對搜索引擎的功能模塊進行分別闡述。 * **蜘蛛**。這個功能模塊專門用來下載頁面，類似瀏覽器的功能。它們之間的區別在于，瀏覽器展現給用戶的是各種形式的信息，包括文本的信息，圖像的信息，視頻的信息，等等；而對于蜘蛛來說，并沒有一些可視化的組件，而是直接跟基本的html源代碼打交道。大家可能都知道，一個標準的web瀏覽器都是帶有html源文件查看的功能的。 * **爬蟲**。該功能模塊專門用戶發現每個頁面中的所有鏈接。它的任務是，通過評估找到的鏈接，或者已定義的地址，來決定蜘蛛去哪里。爬蟲跟蹤這些已經找到的鏈接，并且嘗試去發現對于搜索引擎來說不知道的一些文檔。 * **索引**。此功能組件負責解析每個頁面，然后分析各種頁面的元素，例如，文本內容，頭部內容，結構化或者自定義過的特色部分，特殊的html標簽，等等。 * **數據庫**。搜索引擎下載和分析的一些數據，都要進行存儲。有些時候，它也叫做搜索引擎的索引。 * **結果引擎**。結果引擎來進行頁面的排名工作。它決定著哪些頁面是最匹配用戶的搜索請求的，并且按照何種有效而合理的次序來顯示這些結果。這是根據搜索引擎的排名算法而決定的。它追尋的是這樣一種理念，頁面排名是有價值的，基于用戶興趣驅動的，所以對于SEO工作者來說這個是最感興趣的，SEOer們的目標就是如何有效提高所關心的網站的頁面排名。 * **Web服務器**。搜索引擎web服務器包含了這樣的一個基本的web頁面，有一個用于用戶輸入感興趣的關鍵詞的文本框，并且當用戶提交搜索動作時，將搜索出的結果合理的展示給用戶。 ![](https://box.kancloud.cn/5fafa7e64668bf2717e224bc86b98131_515x338.png) ## 百度site出現兩個首頁快照是什么原因百度大更新，今早site了一下自己負責的網站，竟然發現其中一個有兩個首頁的快照，一個快照日期為2012.1.20，一個快照日期為2011.12.15，而且快照中顯示的網址是一樣的。隨即查找原因，有人說是默認后綴設置的問題。點開一看，果然發現日期為2011.12.15的快照網址帶后綴index.html。我們都知道，對于搜索引摯來說，帶默認后綴和不帶默認后綴的域名，會被區分為兩個不同的地址，但是搜索引擎在顯示的時候，都是直接顯示出了域名。所以，在正常情況下，需要盡量保持url的唯一性，以避免這種情況的發生。除了上述一種情況外，還會有其他的原因導致兩個快照現象的發生么？筆者查詢了網上相關資料，發現還有以下幾種可能。 1. ** 雙IP的影響**。顧名思義，就是說有兩個不同的IP同時指向一個網站，這樣以來，搜索引摯就會把網站分化成兩個快照，當然，也有可能是空間自帶兩個IP的原因。通過分析域名的綁定情況，搜索引擎可以區分出哪個IP是有網站的。搜歲引擎會給有綁定域名的IP正常顯示，給沒綁定域名的IP直接顯示網址。 2. **404頁面設置問題**。部分站長為了方便，總是將404頁面直接設置跳轉到首頁。而對于搜索引擎來說，會認為這是一種刻意優化的行為。這里建議在設置404頁面時不要跳轉到首頁，如果必須這樣設置的話那么建議停留5秒鐘以上以給與用戶和蜘蛛緩沖的時間。 3. **title的修改**。title修改之后可能會顯示出兩個快照，但是這兩個快照中title部分是不一樣的。這點也很好區分出來。由于百度算法的不完善，給我們帶來了很多關于網站建設的問題。找尋嘗試不同的方法然后去解決出現的問題，這也是SEO的一種樂趣所在吧。