Item數據建模 · Python爬蟲

創建爬蟲項目后，會生成一個`items.py`文件，可以將爬取到的數據保存到 Item 對象中。 **1. 在`items.py`中定義需要的Field** ```python # Define here the models for your scraped items # # See documentation in: # https://docs.scrapy.org/en/latest/topics/items.html """ @Date 2021/4/26 """ import scrapy class MyspiderItem(scrapy.Item): # 為將要提取的數據創建對應的Field title = scrapy.Field() url = scrapy.Field() pass ``` <br/> **2. 在你的爬蟲的產生數據的地方引用 MyspiderItem** ```python """ books.py @Date 2021/4/26 """ import scrapy from mySpider.items import MyspiderItem class BooksSpider(scrapy.Spider): name = 'books' allowed_domains = ['book.jd.com'] start_urls = ['http://book.jd.com/'] def parse(self, response): item = MyspiderItem() # title和url必須是MyspiderItem定義好變量 item['title'] = response.xpath('//title/text()').extract_first() item['url'] = response.url yield item ``` <br/> **3. 我們在`pipelines.py`中提取數據** ```python class MyspiderPipeline: def process_item(self, item, spider): # {'title': '京東圖書_圖書_暢銷書_電子書_文娛_教育培訓_低價書-京東', 'url': 'https://book.jd.com/'} print(item) return item ```