采集規則在采集節點中導入即可,導入時,請選擇對應的欄目(以各規則為準)
為確保穩定,**采集點標識不要用中文**,最好是只用英文字母即可。如“mianhuatang”、“biqugetw”否則出現采集相關的錯誤,自行解決采集規則導入以后,需要手動編輯,指定一下欄目對應情況
單欄目匹配、多欄目匹配的說明:
單欄目匹配:
此類采集主要是排行榜性質,小說都在一個列表中,需要進入小說頁面才能識別分類。此類內容初步采集完,會放到默認分類,待有訪問時會根據采集到的信息重新調整所屬欄目。
多欄目匹配:
此類主要是采集全站多個欄目列表,每次采集時隨機采集一個欄目,此類采集完列表以后,內容就會分配到采集規則中對應的欄目。這類采集適合大多數網站
采集規則源站選取:
1.必須存在欄目頁以及分頁,或者最新更新/排行榜等頁面并存在分頁。如不存在分頁則不宜作為目標站,采集不到幾條數據
2.列表頁中最好包含縮略圖、作者等信息,這樣在采集列表時直接就能采集比較完整的小說信息,不用等到小說頁面再采集。推薦,但非必須
3.章節列表頁最好和小說信息在一個頁面,比如大多數筆趣閣模板。這樣可以在采集小說簡介等內容的同時采集到章節列表,從長遠來看,對網站速度是有好處的。推薦,但非必須
4.列表頁初步采集到的文章信息中,縮略圖是不會進行存儲的,這是為了采集的效率考慮。在小說信息頁面被人或蜘蛛訪問時,才會進行存儲,所以可能出現在部分列表中圖片網址是站外的情況
采集規則編寫教程,暫無,待完善。懂jquey的用戶應該會看得懂規則的寫法
現有采集功能已經比較完善,有能力的站長可以自己嘗試編寫采集規則。如果您有非常好的源站適合采集,可以推薦給作者,作者會編寫相關規則并分享給所有商業用戶。