采集器設置 · 彩客規則采集器用戶操作文檔

點擊任務底部進度條的“采集器設置”進入規則編輯界面輸入采集規則名稱和目標網站編碼（可自動檢測）自動補全網址可以將網頁中的相對地址（不包含域名的網址）轉為絕對網址（包含域名）修改請求頭信息以適應需要登錄的、手機瀏覽的等界面 ![](https://box.kancloud.cn/c0bc0debcd7c2747818bee73b1a1a09e_533x846.png) # 起始頁網址 ***** 添加需要采集的目標列表頁點擊“+”號可批量添加網址，勾選“設置為內容頁網址”可直接采集輸入的網址，否則作為列表頁需要進行分析提取出內容頁網址 ![](https://box.kancloud.cn/30d24c91aeea41cc43b493eb4fd6166b_408x316.png) # 內容頁網址 ***** 編寫提取內容頁網址的規則，默認提取所有網址，如需精準可設置“提取網址規則” ![](https://box.kancloud.cn/54f0fd4a6b045ad1aca2b007b431fd4c_532x1014.png) 多級網址獲取：適用于小說、影視等連載形式的內容只要內容頁網址不是直接從起始頁抓取的，都可以通過多級來獲取 ![](https://box.kancloud.cn/a0fcaaed7acc61baf01f3ce33301032e_533x208.png) ![](https://box.kancloud.cn/e9cd76acbb8832ae79a81320dfddb40a_588x600.png) 關聯頁網址獲取：適用于數據分散在多個頁面中如需要抓取的字段不在內容頁，而在其他頁面中，則可以使用該功能將其他頁面也作為內容源 ![](https://box.kancloud.cn/b5f78d56f7dce3fa8c68c7e31a466847_532x163.png) ![](https://box.kancloud.cn/fe57b6a18298f2954e2604bc35d85a42_586x411.png) # 獲取內容 ***** “添加默認”可以自動設置幾個抓取的字段，能滿足大部分文章類型的站點采集如果目標數據格式比較復雜，可點擊“+”自行編寫字段規則，支持正則表達式、xpath、json等多種匹配方式 ![](https://box.kancloud.cn/5380bc9df3f430ee70f447e8a97a6d42_496x503.png) “數據處理”可將采集到的字段值進行過濾或替換內容，每個字段都可單獨處理或使用通用處理 ![](https://box.kancloud.cn/4c6329faeffd98c492260945be8140ca_377x563.png) 如需抓取分頁，點擊開啟“內容分頁”并編寫規則，程序會自動抓取每個分頁中的字段內容 ![](https://box.kancloud.cn/b8ffc7d471e29392afda84a602de5505_435x881.png) # 測試規則 ***** 采集器配置完成后需點擊保存按鈕，刷新后可在“內容頁網址”選項卡和“獲取內容”選項卡中看到測試按鈕測試列表頁中抓取網址 ![](https://box.kancloud.cn/5e6c8798f3a90b0be9897358aeed98c3_442x338.png) 測試頁面中抓取數據 ![](https://box.kancloud.cn/6bbfc6f4ce40ea3683dcca4c8856cd3c_692x1130.png) 測試抓取分頁 ![](https://box.kancloud.cn/4c39f9cfca99cd5aedcd05ae31bfdefd_892x407.png)