<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                1.這里用的是 **scrapy** 這個網頁爬蟲框架,首先要安裝好**scrapy**,這個安裝過程比較曲折,可以去看看網上的其他教程。 2.安裝好了之后,創建第一個**scrapy**項目,這里我們需要一個命令行創建就可以了, `scrapy startproject demo` ![](https://img.kancloud.cn/27/ec/27ec633dc18da1c48e22324d71f5352e_677x392.png) 這里,我們的項目就創建成功了。然后就可以看到我們創建的項目了。 3.項目的目錄結構是這樣子的, ![](https://img.kancloud.cn/3e/9a/3e9abb03ca1e0cf3237e080e0abf4705_339x216.png) 先介紹下目錄結構: (1) demo/: 該項目的python模塊。 (2) scrapy.cfg: 項目的配置文件 (3) demo/items.py: 項目中的item文件。 (4) demo/pipelines.py: 項目中的pipelines文件。 (5) demo/settings.py: 項目的設置文件 (6) demo/spiders/: 放置spider代碼的目錄 (7) demo/middlewares.py:中間件。 具體的功能之后再介紹。 4.接下來,在**spiders**目錄下新建個python文件。名字可以自定義。代碼如下 ![](https://img.kancloud.cn/61/db/61db9b920e50656f89a18f2563820e23_1399x897.png) 運行命令`scrapy crawl demo`成功之后,我們就可以看到我們爬取的數據了 ![](https://img.kancloud.cn/98/be/98be27fc750a3e73988061122021b599_229x295.png) 后面,我們再介紹如何爬取關鍵的數據 爬取過程中,如果爬取不成功,出現 [DEBUG: Forbidden by robots.txt:錯誤],那就關閉scrapy自帶的ROBOTSTXT_OBEY 功能,修改配置文件 settings.py, 將 ROBOTSTXT_OBEY 設置為False。 填入header信息,偽裝成瀏覽器 `DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36', } ~~~` 重新運行就可以了~
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看