<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??一站式輕松地調用各大LLM模型接口,支持GPT4、智譜、豆包、星火、月之暗面及文生圖、文生視頻 廣告
                #### scrapy工作原理圖 ![](https://box.kancloud.cn/a3cf372a0dafcc6d0c9274b6448f9b2e_906x529.png) #### 組件 ``` engine (內部組件) 引擎,框架的核心,其他所有組件在其控制下工作 ``` ``` scheduler(內部組件) 調度器,負責對spider提交的下載請求進行調度 ``` ``` downloader(內部組件) 下載器,負責下載頁面,發送request請求和接收response響應 ``` ``` spider(用戶實現) 爬蟲,負責提取頁面中的數據, 并產生對新頁面的下載請求 ``` ``` middlewares(可選組件) 中間件,負責對request和response對象進行處理 ``` ``` pipelines(可選組件) 數據管道,負責對爬取到的數據進行處理 ``` #### 數據流 ``` request scrapy中的http請求對象 ``` ``` response scrapy中http響應對象 ``` ``` item 從頁面中爬取得一項數據 ``` #### 執行流程 ``` 1. 當SPIDER要爬取某URL地址的頁面時,需使用該URL構造一個Request對象,提交給ENGINE ``` ``` 2. Request對象隨后進入SCHEDULER按某種算法進行排隊,之后的某個時刻SCHEDULER將其出隊,送往DOWNLOADER ``` ``` 3. DOWNLOADER根據Request對象中的URL地址發送一次HTTP請求到網站服務器,之后用服務器返回的HTTP響應構造出一個Response對象,其中包含頁面的HTML文本 ``` ``` 4. Response對象最終會被遞送給SPIDER的頁面解析函數(構造Request對象時指定)進行處理, 頁面解析函數從頁面中提取數據,封裝成Item后提交給ENGINE,Item之后被送往ITEMPIPELINES 進行處理,最終可能由EXPORTER(圖2-1中沒有顯示)以某種數據格式寫入文件(csv,json); 另一方面,頁面解析函數還從頁面中提取鏈接(URL),構造出新的Request對象提交給ENGINE ```
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看