scrapy基礎 · python爬蟲

## scrapy - scrapy是python開發的一個快速，高層次的web抓取框架 - 框架的力量，用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便 - Scrapy 使用了 Twisted(其主要對手是Tornado)異步網絡框架來處理網絡通訊，可以加快我們的下載速度，不用自己去實現異步框架，并且包含了各種中間件接口，可以靈活的完成各種需求 ## scrapy架構圖(綠線是數據流向) ![scrapy架構圖](https://box.kancloud.cn/8c591d54457bb033812a2b0364011e9c_700x494.png) - Scrapy Engine(引擎): 負責**Spider**、**ItemPipeline**、**Downloader**、**Scheduler**中間的通訊，信號、數據傳遞等 - Scheduler(調度器): 它負責接受**引擎**發送過來的Request請求，并按照一定的方式進行整理排列，入隊，當**引擎**需要時，交還給**引擎** - Downloader（下載器）：負責下載**引擎**發送的所有Requests請求，并將其獲取到的Responses交還給**引擎**，由**引擎**交給Spider來處理 - Spider（爬蟲）：它負責處理所有Responses，從中分析提取數據，獲取Item字段需要的數據，并將需要跟進的URL提交給**引擎**，再次進入**Scheduler(調度器)** - Item Pipeline(管道)：它負責處理Spider中獲取到的Item，并進行進行后期處理（詳細分析、過濾、存儲等）的地方 - Downloader Middlewares（下載中間件）：可以當作是一個可以自定義擴展下載功能的組件 - Spider Middlewares（Spider中間件）：可以理解為是一個可以自定擴展和操作**引擎**和**Spider**中間通信的功能組件（比如進入Spider的Responses;和從Spider出去的Requests） ## scrapy運作流程代碼寫好，程序開始運行... 1. 引擎：Hi！Spider, 你要處理哪一個網站？ 2. Spider：老大要我處理xxxx.com。 3. 引擎：你把第一個需要處理的URL給我吧。 4. Spider：給你，第一個URL是xxxxxxx.com。 5. 引擎：Hi！調度器，我這有request請求你幫我排序入隊一下。 6. 調度器：好的，正在處理你等一下。 7. 引擎：Hi！調度器，把你處理好的request請求給我。 8. 調度器：給你，這是我處理好的request 9. 引擎：Hi！下載器，你按照老大的下載中間件的設置幫我下載一下這個request請求 10. 下載器：好的！給你，這是下載好的東西。（如果失敗：sorry，這個request下載失敗了。然后引擎告訴調度器，這個request下載失敗了，你記錄一下，我們待會兒再下載） 11. 引擎：Hi！Spider，這是下載好的東西，并且已經按照老大的下載中間件處理過了，你自己處理一下（注意！這兒responses默認是交給def parse()這個函數處理的） 12. Spider：（處理完畢數據之后對于需要跟進的URL），Hi！引擎，我這里有兩個結果，這個是我需要跟進的URL，還有這個是我獲取到的Item數據。 13. 引擎：Hi ！管道我這兒有個item你幫我處理一下！調度器！這是需要跟進URL你幫我處理下。然后從第四步開始循環，直到獲取完老大需要全部信息。 14. 管道``調度器：好的，現在就做！ **注意！只有當調度器中不存在任何request了，整個程序才會停止，（也就是說，對于下載失敗的URL，Scrapy也會重新下載。）**