Request · Python爬蟲

翻頁請求的思路如下：（1）找到下一頁的url地址；（2）調用`yield scrapy.Request`向下一頁發出請求； ```python class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=None, flags=None, cb_kwargs=None) url：url callback：表示當前的url的響應交給哪個函數去處理 meta：實現數據在不同的解析函數中傳遞，meta默認帶有部分數據，比如下載延遲，請求深度等 dont_filter：默認為False，會過濾請求的url地址，即請求過的url地址不會繼續被請求，對需要重復請求的url地址可以把它設置為Ture，比如貼吧的翻頁請求，頁面的數據總是在變化;start_urls中的地址會被反復請求，否則程序不會啟動 method：指定POST或GET請求 headers：接收一個字典，其中不包括cookies cookies：接收一個字典，專門放置cookies body：接收json字符串，為POST的數據，發送payload_post請求時使用 ``` ```python """ 例： books.py @Date 2021/4/26 """ import scrapy class BooksSpider(scrapy.Spider): name = 'books' allowed_domains = ['item.jd.com'] start_urls = ['https://item.jd.com/13201282.html'] def parse(self, response): yield scrapy.Request( url='https://item.jd.com/13142372.html', callback=self.parse_next, meta={'pre': response.url} ) def parse_next(self, response): # 或者 response.meta['pre'] pre = response.meta.get('pre') current = response.url print(pre) # https://item.jd.com/13201282.html print(current) # https://item.jd.com/13142372.html ```