python 知乎爬蟲 · Python爬蟲

依然是使用requests 主要的問題是模擬登陸： ![](https://box.kancloud.cn/2016-05-29_574a961cb2e2a.jpg) a.png 通過chrome開發者工具可以了解到，登陸的數據有這么一些，但是根據我的觀察，有時候需要用到驗證碼，所以，我的爬蟲一律包含驗證碼，想要嘗試驗證碼自動識別的同學，可以移步我另一篇文章《簡單驗證碼識別》，雖然那篇文章只講數字驗證碼的識別，但是基本思想是一樣的。言歸正傳，__xsrf這個數據在登陸網頁上可以找到，所以可以通過正則找出來。登陸函數大概是這樣的： ![](https://box.kancloud.cn/2016-05-29_574a961cc8ff5.jpg) Paste_Image.png 函數初次登陸，需要賬號和密碼，之后，程序會自動記錄一個cookie文件，在當前文件夾下，下次運行程序就不需要再輸入密碼和賬號了，讀寫cookie文件的程序大概是這樣： ![](https://box.kancloud.cn/2016-05-29_574a961cdade3.jpg) Paste_Image.png 下載源碼后，基本操作是：先需要實例化： from python_zhihu import ZhiHu zh=ZhiHu() 下載某個問題下的高贊答案： zh.get_text('填入網址') 下載某個問題下所有的圖片： zh,get_img('url') 源碼：[https://github.com/ladingwu/python_zhihu](https://github.com/ladingwu/python_zhihu)