2.簡單的demo · 簡單的python爬蟲入門

1.這里用的是 **scrapy** 這個網頁爬蟲框架，首先要安裝好**scrapy**，這個安裝過程比較曲折，可以去看看網上的其他教程。 2.安裝好了之后，創建第一個**scrapy**項目，這里我們需要一個命令行創建就可以了， `scrapy startproject demo` ![](https://img.kancloud.cn/27/ec/27ec633dc18da1c48e22324d71f5352e_677x392.png) 這里，我們的項目就創建成功了。然后就可以看到我們創建的項目了。 3.項目的目錄結構是這樣子的， ![](https://img.kancloud.cn/3e/9a/3e9abb03ca1e0cf3237e080e0abf4705_339x216.png) 先介紹下目錄結構： (1) demo/: 該項目的python模塊。 (2) scrapy.cfg: 項目的配置文件 (3) demo/items.py: 項目中的item文件。 (4) demo/pipelines.py: 項目中的pipelines文件。 (5) demo/settings.py: 項目的設置文件 (6) demo/spiders/: 放置spider代碼的目錄 (7) demo/middlewares.py：中間件。具體的功能之后再介紹。 4.接下來，在**spiders**目錄下新建個python文件。名字可以自定義。代碼如下 ![](https://img.kancloud.cn/61/db/61db9b920e50656f89a18f2563820e23_1399x897.png) 運行命令`scrapy crawl demo`成功之后，我們就可以看到我們爬取的數據了 ![](https://img.kancloud.cn/98/be/98be27fc750a3e73988061122021b599_229x295.png) 后面，我們再介紹如何爬取關鍵的數據爬取過程中，如果爬取不成功，出現 [DEBUG: Forbidden by robots.txt:錯誤]，那就關閉scrapy自帶的ROBOTSTXT_OBEY 功能，修改配置文件 settings.py，將 ROBOTSTXT_OBEY 設置為False。填入header信息，偽裝成瀏覽器 `DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36', } ~~~` 重新運行就可以了~