【python】網絡爬蟲（一）：python爬蟲概述 · 網絡爬蟲系列

python爬蟲的實現方式： 1.簡單點的urllib2 + regex，足夠了，可以實現最基本的網頁下載功能。實現思路就是前面java版爬蟲差不多，把網頁拉回來，再正則regex解析信息……總結起來，兩個函數：urllibw.urlopen()和re.compile()。其實對于正則解析html網頁，python同樣有和jsoup類似的工具包——BeautifulSoup，用好了同樣比正則省事多了。同時BeautifulSoup還針對非結構化html標簽有清洗功能，比如網頁中標簽不完整，有些源代碼中出現起始標簽而沒有結束標簽，html標簽不完整會影響抓取結構化數據，通過BeautifulSoup先對源代碼清洗，再分析獲取內容。進階版本：異步爬取可以使用多線程、效率更高可以采用非阻塞方案tornado和curl可以實現非阻塞的下載。 2.成熟的開源爬蟲框架scrapy，后邊系列文章再寫吧……不再多說了，網上對于這兩種實現方式也有很多demo項目。其實關于如何學習python爬蟲，知乎有個話題《如何入門Python爬蟲》： [http://www.zhihu.com/question/20899988](http://www.zhihu.com/question/20899988) python爬蟲系列部分先幾個簡單的例子開始，python工具庫urllib2很多庫函數已經幫我們做了之前java實現版的某些繁重工作和一些步驟，所以沒必要再重復勞動。之后會再介紹scrapy框架。關于scrapy，一個優秀的基于twisted開源爬蟲框架，并且作為GSoC (Google Summer of Code)，這個開源項目也是有很高的關注度的，該項目的版本也在不斷更新。其實對于scrapy框架的學習，更多的可以參見官方文檔，在這里也順便推薦一個中文的scrapy學習資料：[http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html](http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html)[](http://scrapy-chs.readthedocs.org/zh-CN/latest/)，來自github開源社區的幾位學生，目前該文檔大部分已經翻譯完成，翻譯質量不錯，學scrapy的同時可以看下。原創文章，轉載請注明出處：[http://blog.csdn.net/dianacody/article/details/39726007](http://blog.csdn.net/dianacody/article/details/39726007)