<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??碼云GVP開源項目 12k star Uniapp+ElementUI 功能強大 支持多語言、二開方便! 廣告
                轉:http://blog.csdn.net/Q_AN1314/article/details/51111502 Scrapy可以設置優先抓取哪些網頁,設置DEPTH_LIMIT可以控制抓取的最大深度,如果設為0則意味著沒有限制。把DEPTH_PRIORITY(默認值為0)設置為一個正值后,Scrapy的調度器的隊列就會從LIFO變成FIFO,因此抓取規則就由DFO(深度優先)變成了BFO(廣度優先): ~~~ DEPTH_PRIORITY = 1 SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue' SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue' ~~~ 這在爬網站的時候是很有用的,例如,一個新聞的門戶網站,主頁上有很多最近的新聞,其中每個新聞頁面都有到其他頁面的外鏈。默認情況下,Scrapy會在主頁的第一個新聞中盡可能地深入,然后才會繼續其他的新聞。而BFO順序會先抓取頂層(即主頁上的)的鏈接,然后才會進一步深入。此時若與DEPTH_LIMIT聯合使用,比如將其設置為3,就可以快速地在門戶網站上獲取最近的新聞了。 有些網站會在根目錄下放置一個名字為robots.txt的文件,里面聲明了此網站希望爬蟲遵守的規范。如果把ROBOTSTXT_OBEY設置成了 True,Scrapy就會遵守這個文件制定的規范。不過此時要在調試的時候注意還要忘了這一點,以防爬蟲會出現一些出乎意料的行為。 CookiesMiddleware中間件會對程序員透明地處理所有與cookie相關的操作,比如session追蹤,以便可以讓爬蟲登錄等等。如果你想讓爬網站的過程更加隱秘,可以把COOKIES_ENABLED選項設置成False。禁用cookie也會稍稍減少傳輸的帶寬并加速抓取的過程。同樣地,REFERER_ENABLED默認也是True,也就是啟用了RefererMiddleware中間件,它負責填充Referer請求頭。你可以使用DEFAULT_REQUEST_HEADERS選項來自定義請求頭。有些網站會要求有特定的請求頭才行,此時這個設置項就顯得很有用。最后,工程中自動生成的settings.py文件建議設置USER_AGENT,默認是Scrapy的版本,不過最好改成網站管理員能聯系到我們的一些信息。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看