點擊任務底部進度條的“采集器設置”進入規則編輯界面
輸入采集規則名稱和目標網站編碼(可自動檢測)
自動補全網址可以將網頁中的相對地址(不包含域名的網址)轉為絕對網址(包含域名)
修改請求頭信息以適應需要登錄的、手機瀏覽的等界面

# 起始頁網址
*****
添加需要采集的目標列表頁
點擊“+”號可批量添加網址,勾選“設置為內容頁網址”可直接采集輸入的網址,否則作為列表頁需要進行分析提取出內容頁網址

# 內容頁網址
*****
編寫提取內容頁網址的規則,默認提取所有網址,如需精準可設置“提取網址規則”

多級網址獲取:適用于小說、影視等連載形式的內容
只要內容頁網址不是直接從起始頁抓取的,都可以通過多級來獲取


關聯頁網址獲取:適用于數據分散在多個頁面中
如需要抓取的字段不在內容頁,而在其他頁面中,則可以使用該功能將其他頁面也作為內容源


# 獲取內容
*****
“添加默認”可以自動設置幾個抓取的字段,能滿足大部分文章類型的站點采集
如果目標數據格式比較復雜,可點擊“+”自行編寫字段規則,支持正則表達式、xpath、json等多種匹配方式

“數據處理”可將采集到的字段值進行過濾或替換內容,每個字段都可單獨處理或使用通用處理

如需抓取分頁,點擊開啟“內容分頁”并編寫規則,程序會自動抓取每個分頁中的字段內容

# 測試規則
*****
采集器配置完成后需點擊保存按鈕,刷新后可在“內容頁網址”選項卡和“獲取內容”選項卡中看到測試按鈕
測試列表頁中抓取網址

測試頁面中抓取數據

測試抓取分頁
