python爬蟲的實現方式:
1.簡單點的urllib2 + regex,足夠了,可以實現最基本的網頁下載功能。實現思路就是前面java版爬蟲差不多,把網頁拉回來,再正則regex解析信息……總結起來,兩個函數:urllibw.urlopen()和re.compile()。其實對于正則解析html網頁,python同樣有和jsoup類似的工具包——BeautifulSoup,用好了同樣比正則省事多了。同時BeautifulSoup還針對非結構化html標簽有清洗功能,比如網頁中標簽不完整,有些源代碼中出現起始標簽而沒有結束標簽,html標簽不完整會影響抓取結構化數據,通過BeautifulSoup先對源代碼清洗,再分析獲取內容。
進階版本:異步爬取可以使用多線程、效率更高可以采用非阻塞方案tornado和curl可以實現非阻塞的下載。
2.成熟的開源爬蟲框架scrapy,后邊系列文章再寫吧……不再多說了,網上對于這兩種實現方式也有很多demo項目。
其實關于如何學習python爬蟲,知乎有個話題《如何入門Python爬蟲》:
[http://www.zhihu.com/question/20899988](http://www.zhihu.com/question/20899988)
python爬蟲系列部分先幾個簡單的例子開始,python工具庫urllib2很多庫函數已經幫我們做了之前java實現版的某些繁重工作和一些步驟,所以沒必要再重復勞動。之后會再介紹scrapy框架。
關于scrapy,一個優秀的基于twisted開源爬蟲框架,并且作為GSoC (Google Summer of Code),這個開源項目也是有很高的關注度的,該項目的版本也在不斷更新。其實對于scrapy框架的學習,更多的可以參見官方文檔,在這里也順便推薦一個中文的scrapy學習資料:[http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html](http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html)[](http://scrapy-chs.readthedocs.org/zh-CN/latest/),來自github開源社區的幾位學生,目前該文檔大部分已經翻譯完成,翻譯質量不錯,學scrapy的同時可以看下。
原創文章,轉載請注明出處:[http://blog.csdn.net/dianacody/article/details/39726007](http://blog.csdn.net/dianacody/article/details/39726007)
- 前言
- 【java】微博爬蟲(一):小試牛刀——網易微博爬蟲(自定義關鍵字爬取微博數據)(附軟件源碼)
- 【java】微博爬蟲(二):如何抓取HTML頁面及HttpClient使用
- 【java】微博爬蟲(三):庖丁解牛——HTML結構分析與正則切分
- 【java】微博爬蟲(四):數據處理——jsoup工具解析html、dom4j讀寫xml
- 【java】微博爬蟲(五):防止爬蟲被墻的幾個技巧(總結篇)
- 【python】網絡爬蟲(一):python爬蟲概述
- 【python】網絡爬蟲(二):網易微博爬蟲軟件開發實例(附軟件源碼)
- 【python】網絡爬蟲(三):模擬登錄——偽裝瀏覽器登錄爬取過程
- 【python】網絡爬蟲(四):scrapy爬蟲框架(架構、win/linux安裝、文件結構)
- 【python】網絡爬蟲(五):scrapy爬蟲初探——爬取網頁及選擇器
- 打包python文件為exe文件(PyInstaller工具使用方法)