保存數據 · Python爬蟲

在scrapy中通過在`pipelines.py`中定義一個對數據操作的管道來保存數據。 <br/> **1. 在`pipelines.py`定義一個Pipeline管道** ```python class MyspiderPipeline: def process_item(self, item, spider): """ （1） process_item是固定方法名，不能更改（2）你可以在該方法中將數據保存 :param item: 當爬蟲books.py中 yield item 一次則process_item方法被調用一次 item參數名可以與 yield item 參數名不一樣 :param spider: :return: 返回item，將item提交給引擎 """ print(item) # {'url': 'https://book.jd.com/'} return item ``` <br/> **2. 在你的爬蟲產生數據的地方`yield item`** ```python #books.py import scrapy class BooksSpider(scrapy.Spider): name = 'books' allowed_domains = ['book.jd.com'] start_urls = ['http://book.jd.com/'] def parse(self, response): item = {} item['url'] = response.url # 在生成數據第地方 yield 數據，將數據發送到pipeline管道的process_item方法中 # 每做一次 yield item 就會調用一次 process_item 方法 yield item pass ``` <br/> **3. 在`settings.py`中啟用 MyspiderPipeline** ```python ITEM_PIPELINES = { # 300為權重，數字越小權重越大，越先被執行 'mySpider.pipelines.MyspiderPipeline': 300, } ```