python的urllib2 模塊解析 · Python爬蟲

python是蜘蛛之王，蜘蛛離不開urllib。 urllib2 是urllib 的另一個版本,有很多改進。聽說內部代碼也好了很多。 urllib2是python自帶的一個訪問網頁和本地文件的庫。簡單使用如下: 訪問一個網址： ~~~ import urllib2 f=urllib2.urlopen("http://www.jeapedu.com") buf = f.read() ~~~ 讀一個本地文件: ~~~ import urllib2 f=urllib2.urlopen('file:./a.txt') buf=f.read() ~~~ 如何獲取庫有那些函數或者類： ~~~ >>> dir(f) ['__doc__', '__init__', '__iter__', '__module__', '__repr__', 'close', 'code', 'fileno', 'fp', 'getcode', 'geturl', 'headers', 'info', 'next', 'read', 'readline', 'readlines', 'url'] >>> ~~~ ### 中文地址解析：[?](http://uliweb.clkg.org/tutorial/view_chapter/172#title_0-0-1) ~~~ h4 = u'http://www.baidu.com?w=測試' h4=h4.encode('utf-8') urllib2.urlopen(h4) ~~~ 最好用正確的編碼轉換一下。上面的例子如果不用轉換的函數處理一下網址，會導致urlopen 失敗。 ### 分類操作[?](http://uliweb.clkg.org/tutorial/view_chapter/172#title_0-0-2) FTP ~~~ handler = urllib2.FTPHandler() request = urllib2.Request(url='ftp://ftp.ubuntu.com/') opener = urllib2.build_opener(handler) f = opener.open(request) print f.read() ~~~ 如果需要用戶名和密碼: ~~~ urllib2.Request(url='ftp://用戶名:密碼@ftp地址/') ~~~ HTTP ~~~ handler = urllib2.HTTPHandler() request = urllib2.Request(url='http://ftp.ubuntu.com/') opener = urllib2.build_opener(handler) f = opener.open(request) print f.read() ~~~ 支持 headers ~~~ #coding=utf-8 import urllib2 request = urllib2.Request(url='http://192.168.2.201:8000/hd.txt') request.add_header('Accept-encoding', 'gzip') f = urllib2.urlopen(request) print f.read() ~~~