依然是使用requests
主要的問題是模擬登陸:

a.png
通過chrome開發者工具可以了解到,登陸的數據有這么一些,
但是根據我的觀察,有時候需要用到驗證碼,所以,我的爬蟲一律包含驗證碼,想要嘗試驗證碼自動識別的同學,可以移步我另一篇文章《簡單驗證碼識別》,雖然那篇文章只講數字驗證碼的識別,但是基本思想是一樣的。
言歸正傳,__xsrf這個數據在登陸網頁上可以找到,所以可以通過正則找出來。
登陸函數大概是這樣的:

Paste_Image.png
函數初次登陸,需要賬號和密碼,之后,程序會自動記錄一個cookie文件,在當前文件夾下,下次運行程序就不需要再輸入密碼和賬號了,讀寫cookie文件的程序大概是這樣:

Paste_Image.png
下載源碼后,基本操作是:
先需要實例化:
from python_zhihu import ZhiHu
zh=ZhiHu()
下載某個問題下的高贊答案:
zh.get_text('填入網址')
下載某個問題下所有的圖片:
zh,get_img('url')
源碼:[https://github.com/ladingwu/python_zhihu](https://github.com/ladingwu/python_zhihu)
- Python爬蟲入門
- (1):綜述
- (2):爬蟲基礎了解
- (3):Urllib庫的基本使用
- (4):Urllib庫的高級用法
- (5):URLError異常處理
- (6):Cookie的使用
- (7):正則表達式
- (8):Beautiful Soup的用法
- Python爬蟲進階
- Python爬蟲進階一之爬蟲框架概述
- Python爬蟲進階二之PySpider框架安裝配置
- Python爬蟲進階三之Scrapy框架安裝配置
- Python爬蟲進階四之PySpider的用法
- Python爬蟲實戰
- Python爬蟲實戰(1):爬取糗事百科段子
- Python爬蟲實戰(2):百度貼吧帖子
- Python爬蟲實戰(3):計算大學本學期績點
- Python爬蟲實戰(4):模擬登錄淘寶并獲取所有訂單
- Python爬蟲實戰(5):抓取淘寶MM照片
- Python爬蟲實戰(6):抓取愛問知識人問題并保存至數據庫
- Python爬蟲利器
- Python爬蟲文章
- Python爬蟲(一)--豆瓣電影抓站小結(成功抓取Top100電影)
- Python爬蟲(二)--Coursera抓站小結
- Python爬蟲(三)-Socket網絡編程
- Python爬蟲(四)--多線程
- Python爬蟲(五)--多線程續(Queue)
- Python爬蟲(六)--Scrapy框架學習
- Python爬蟲(七)--Scrapy模擬登錄
- Python筆記
- python 知乎爬蟲
- Python 爬蟲之——模擬登陸
- python的urllib2 模塊解析
- 蜘蛛項目要用的數據庫操作
- gzip 壓縮格式的網站處理方法
- 通過瀏覽器的調試得出 headers轉換成字典
- Python登錄到weibo.com
- weibo v1.4.5 支持 RSA協議(模擬微博登錄)
- 搭建Scrapy爬蟲的開發環境
- 知乎精華回答的非專業大數據統計
- 基于PySpider的weibo.cn爬蟲
- Python-實現批量抓取妹子圖片
- Python庫
- python數據庫-mysql
- 圖片處理庫PIL
- Mac OS X安裝 Scrapy、PIL、BeautifulSoup
- 正則表達式 re模塊
- 郵件正則
- 正則匹配,但過濾某些字符串
- dict使用方法和快捷查找
- httplib2 庫的使用