工作原理 · python

#### scrapy工作原理圖 ![](https://box.kancloud.cn/a3cf372a0dafcc6d0c9274b6448f9b2e_906x529.png) #### 組件 ``` engine (內部組件) 引擎，框架的核心，其他所有組件在其控制下工作 ``` ``` scheduler(內部組件) 調度器，負責對spider提交的下載請求進行調度 ``` ``` downloader(內部組件) 下載器，負責下載頁面，發送request請求和接收response響應 ``` ``` spider(用戶實現) 爬蟲，負責提取頁面中的數據, 并產生對新頁面的下載請求 ``` ``` middlewares(可選組件) 中間件，負責對request和response對象進行處理 ``` ``` pipelines(可選組件) 數據管道，負責對爬取到的數據進行處理 ``` #### 數據流 ``` request scrapy中的http請求對象 ``` ``` response scrapy中http響應對象 ``` ``` item 從頁面中爬取得一項數據 ``` #### 執行流程 ``` 1. 當SPIDER要爬取某URL地址的頁面時，需使用該URL構造一個Request對象，提交給ENGINE ``` ``` 2. Request對象隨后進入SCHEDULER按某種算法進行排隊，之后的某個時刻SCHEDULER將其出隊，送往DOWNLOADER ``` ``` 3. DOWNLOADER根據Request對象中的URL地址發送一次HTTP請求到網站服務器，之后用服務器返回的HTTP響應構造出一個Response對象，其中包含頁面的HTML文本 ``` ``` 4. Response對象最終會被遞送給SPIDER的頁面解析函數（構造Request對象時指定）進行處理，頁面解析函數從頁面中提取數據，封裝成Item后提交給ENGINE，Item之后被送往ITEMPIPELINES 進行處理，最終可能由EXPORTER（圖2-1中沒有顯示）以某種數據格式寫入文件（csv，json）；另一方面，頁面解析函數還從頁面中提取鏈接（URL），構造出新的Request對象提交給ENGINE ```