<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                python爬蟲的實現方式: 1.簡單點的urllib2 + regex,足夠了,可以實現最基本的網頁下載功能。實現思路就是前面java版爬蟲差不多,把網頁拉回來,再正則regex解析信息……總結起來,兩個函數:urllibw.urlopen()和re.compile()。其實對于正則解析html網頁,python同樣有和jsoup類似的工具包——BeautifulSoup,用好了同樣比正則省事多了。同時BeautifulSoup還針對非結構化html標簽有清洗功能,比如網頁中標簽不完整,有些源代碼中出現起始標簽而沒有結束標簽,html標簽不完整會影響抓取結構化數據,通過BeautifulSoup先對源代碼清洗,再分析獲取內容。 進階版本:異步爬取可以使用多線程、效率更高可以采用非阻塞方案tornado和curl可以實現非阻塞的下載。 2.成熟的開源爬蟲框架scrapy,后邊系列文章再寫吧……不再多說了,網上對于這兩種實現方式也有很多demo項目。 其實關于如何學習python爬蟲,知乎有個話題《如何入門Python爬蟲》: [http://www.zhihu.com/question/20899988](http://www.zhihu.com/question/20899988) python爬蟲系列部分先幾個簡單的例子開始,python工具庫urllib2很多庫函數已經幫我們做了之前java實現版的某些繁重工作和一些步驟,所以沒必要再重復勞動。之后會再介紹scrapy框架。 關于scrapy,一個優秀的基于twisted開源爬蟲框架,并且作為GSoC (Google Summer of Code),這個開源項目也是有很高的關注度的,該項目的版本也在不斷更新。其實對于scrapy框架的學習,更多的可以參見官方文檔,在這里也順便推薦一個中文的scrapy學習資料:[http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html](http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html)[](http://scrapy-chs.readthedocs.org/zh-CN/latest/),來自github開源社區的幾位學生,目前該文檔大部分已經翻譯完成,翻譯質量不錯,學scrapy的同時可以看下。 原創文章,轉載請注明出處:[http://blog.csdn.net/dianacody/article/details/39726007](http://blog.csdn.net/dianacody/article/details/39726007)
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看