8.1 Python3 · 前端面試知識點總結

# Python3 相關知識 ## 簡單爬蟲 ### urlib 使用urlib這個組件抓取網頁，urllib是一個URL處理包，這個包中集合了一些處理URL的模塊。 |模塊名 |作用 | |-------------------|-----------------------------| |urllib.request |模塊是用來打開和讀取URLs的 | |urllib.error |模塊包含一些有urllib.request產生的錯誤，可以使用try進行捕捉處理| |urllib.parse |模塊包含了一些解析URLs的方法 | |urllib.robotparser |模塊用來解析robots.txt文本文件.它提供了一個單獨的RobotFileParser類，通過該類提供的can_fetch()方法測試爬蟲是否可以下載一個頁面 | ### 爬取一個網頁的步驟 1. 使用 `urllib.request.urlopen()` 打開一個網頁。 > urlopen有一些可選參數，具體信息可以查閱Python自帶的documentation。 2. 讀取網頁內容。 ```python # -*- coding: UTF-8 -*- from urllib import request if __name__ == "__main__": response = request.urlopen("http://fanyi.baidu.com") html = response.read() html = html.decode('utf-8') print(html) ``` 3.