1.這里用的是 **scrapy** 這個網頁爬蟲框架,首先要安裝好**scrapy**,這個安裝過程比較曲折,可以去看看網上的其他教程。
2.安裝好了之后,創建第一個**scrapy**項目,這里我們需要一個命令行創建就可以了,
`scrapy startproject demo`

這里,我們的項目就創建成功了。然后就可以看到我們創建的項目了。
3.項目的目錄結構是這樣子的,

先介紹下目錄結構:
(1) demo/: 該項目的python模塊。
(2) scrapy.cfg: 項目的配置文件
(3) demo/items.py: 項目中的item文件。
(4) demo/pipelines.py: 項目中的pipelines文件。
(5) demo/settings.py: 項目的設置文件
(6) demo/spiders/: 放置spider代碼的目錄
(7) demo/middlewares.py:中間件。
具體的功能之后再介紹。
4.接下來,在**spiders**目錄下新建個python文件。名字可以自定義。代碼如下

運行命令`scrapy crawl demo`成功之后,我們就可以看到我們爬取的數據了

后面,我們再介紹如何爬取關鍵的數據
爬取過程中,如果爬取不成功,出現 [DEBUG: Forbidden by robots.txt:錯誤],那就關閉scrapy自帶的ROBOTSTXT_OBEY 功能,修改配置文件 settings.py, 將 ROBOTSTXT_OBEY 設置為False。
填入header信息,偽裝成瀏覽器
`DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36',
}
~~~`
重新運行就可以了~