[返回目錄](index.html)#### [使用](sy_index.html) —— [內容](neirong.html) —— [采集管理](#)
##### 一、簡介
文章的采集功能是通過程序來遠程獲取目標網頁內容,經過本地規則解析處理后存儲到服務器的數據庫內。
文章采集系統顛覆傳統采集模式和流程,采集規則與采集界面分離,規則設置更簡單,只需有基礎技術知識的人員設置好相關規則。
編輯人員無需了解太過細節的技 術規則,只需選中自己想要采集的文章列表,就可以像發布文章一樣,輕松地完成數據采集操作。
##### 二、功能演示
> 一、采集流程 簡單的講有三個步驟: 1、添加采集點,填寫采集規則。 2、采集網址,采集內容 3、發布內容到指定欄目
> 以采集新浪新聞(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)為例,作一下詳細流程介紹。
> 實例說明: 目標:采集新浪新聞到V9系統 “國內” 欄目中。 目標網址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml 1、添加采集點 2. 網址規則配置
>
> **1. 添加采集點,填寫采集規則**
>
> 
>
> **A.內容規則**
>
> 
>
> *注:上圖的“目標網頁源碼”是指:目標網頁的源代碼。具體步驟如下:
> 目標網頁——>右鍵——>查看源代碼——>找到你要采集的源代碼開始和結束,按“上圖”填寫規則。*
>
> 添加成功后,測試你的網址采集規則是否正確,如下圖所示:
>
> 
>
> **B.內容規則配置**
>
> 為了便于說明,我們只采集標題、內容兩個字段。
> 采集內容網址:http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的內容采集規則,請你打開這個網址,然后頁面空白處右鍵->查看源文件搜索標題和內容的開始邊界。
>
> **標題采集配置:** 從網頁<title></title>里取標題,并去除不需要的字符。如下圖
>
> 
>
> **內容采集配置:** 新浪新聞最終頁,新聞內容都包含在 \<!-- 正文內容 begin --> <!-- 正文內容 end --> 之間,而且這二個結點,在整個頁面源代碼中具有唯一性。所以可以以此為規則取內容。并對內容進行過濾。如下圖
>
> 
>
> **C.自定義規則**
>
> 除系統自帶的規則外,可根據自己需求進行自定義規則采集。操作和系統規則相同,如下圖:
>
> 
>
> **D.高級配置**
>
> 可設置是否把圖片下載到服務器上,是否打水印等配置。如下圖所示:
>
> 
>
> **2. 采集管理**
>
> 添加采集點測試成功后,你可以管理你添加的采集點(采集網址,采集內容,內容發布,測試,修改,復制,導出).如下圖所示:
>
> 
>
> **A.采集網址**
>
> 采集采集點的網址。
>
> **B.采集內容**
>
> 采集采集點的內容。
>
> **C.內容發布**
>
> 將采集的內容發布到指定欄目中。如下圖所示:
>
> 
>
> 點擊“導入”,跳轉到選擇欄目頁面。如下圖所示:
>
> 
>
> 點擊“提交后”,跳轉到欄目配置設置頁面。如下圖所示:
>
> 
> 
>
> 提交成功將采集內容導入到指定欄目(如下圖所示)。在此期間請耐心等待, 完成后會自動轉向。至此一個簡單的采集流程就操作完成。在指定的欄目下已經存在你采集的內容信息。
>
> 
[返回目錄](index.html)
上海盛大網絡發展有限公司 c 2006 - 2011 B2-20040053.
問題和建議請反饋至:<http://bbs.phpcms.cn>
- 首頁
- 簡介
- PHPCMS v9 安裝環境要求
- 安裝
- Linux 環境搭建推薦教程
- Windows 環境搭建推薦教程
- CentOS5下Nginx 環境推薦教程
- PC_webserver 安裝說明
- PHPCMS V9 安裝說明
- 使用
- 后臺主界面
- 我的面板
- 修改個人信息
- 修改密碼
- 生成首頁
- 設置
- 相關設置
- 站點管理
- 發布點管理
- 基本設置
- 安全配置
- PHPSSO配置
- 郵箱配置
- connect
- 管理員設置
- 管理員管理
- 角色管理
- 模塊
- 模塊管理
- 模塊管理
- 在線充值
- 短信平臺
- 物流管理
- 外部數據導入
- 點評
- 表單向導
- 手機門戶
- 廣告
- 新聞心情
- 短消息
- 投票
- 友情鏈接
- 評論
- 公告
- 全站搜索
- 數據源
- 企業黃頁
- 模塊配置
- 分類管理
- 黃頁模型管理
- 企業模板管理
- 信息管理
- 企業庫管理
- 批量更新URL
- 內容
- 內容發布管理
- 管理內容
- 附件管理
- 專題
- 碎片管理
- 采集管理
- 評論管理
- 發布管理
- 批量更新欄目頁
- 生成首頁
- 批量更新URL
- 批量更新內容頁
- 同步到發布點
- 內容相關設置
- 管理欄目
- 模型管理
- 類別管理
- 推薦位管理
- 用戶
- 會員管理
- 會員管理
- 審核會員
- 會員模塊配置
- 會員組管理
- 管理會員組
- 會員模型管理
- 管理會員模型
- 界面
- 模板風格
- 標簽向導
- 擴展
- 附加字段管理
- 在線升級
- 信息模型設置
- 前臺菜單管理
- 來源管理
- 木馬查殺
- 更新全站緩存
- 后臺操作日志
- 下載鏡像管理
- IP禁止
- URL規則管理
- 數據庫工具
- 菜單管理
- 敏感詞管理
- Baibu/Google地圖
- 關聯鏈接
- 聯動菜單
- 工作流
- phpsso
- 會員管理
- 應用管理
- 通信信息
- 積分兌換
- 管理員管理
- 系統設置
- 更新緩存
- 修改密碼
- 應用
- 升級與轉換
- 程序升級
- 離線升級
- 在線升級
- 程序轉換
- phpcms2008 to v9
- phpcms2007 to v9
- DEDECMS 5.6 to v9
- 帝國cms 6.5 to v9
- PHP168 Sharp to v9
- 萬能數據導入
- 整合文檔
- 整合Discuz 7.0 - X1.5
- 整合Discuz X2
- 整合PHPWIND 8.7
- 標簽使用
- PC標簽使用說明
- PC標簽保留參數
- 系統常量
- 功能模塊
- 內容模塊
- 評論模塊
- 投票模塊
- 公告模塊
- 專題模塊
- 會員模塊
- 友情鏈接模塊
- 黃頁模塊
- 工具箱
- json工具箱
- xml工具箱
- get標簽
- 碎片工具箱
- 高級應用與部署
- Apache下Rewrite設置
- Sphinx全文索引教程
- Mysql開啟全文索引
- Mysql優化
- 修改后臺路徑
- 數據庫分離部署
- 萬能字段應用
- 推薦位高級應用
- 主程序與web目錄分離
- 第三方手冊
- JQuery 手冊
- artDialog 手冊
- formValidator手冊
- calendar手冊
- CKEditor
- 二次開發
- 目錄結構分析
- 數據庫結構
- 二次開發流程
- 入口程序
- 系統類庫與函數庫調用
- 配置文件調用
- 函數擴展
- 控制器擴展技巧
- 常見問題
- 采集過濾規則無效
- 網站更換域名怎么辦?
- 后臺登陸提示驗證碼錯誤
- 應用間同步登陸問題
- 提示通信失敗,用戶登錄失敗
- 如何將靜態文件生成到根目錄
- 為什么添加的內容沒有生成靜態?