# Python3 相關知識
## 簡單爬蟲
### urlib
使用urlib這個組件抓取網頁,urllib是一個URL處理包,這個包中集合了一些處理URL的模塊。
|模塊名 |作用 |
|-------------------|-----------------------------|
|urllib.request |模塊是用來打開和讀取URLs的 |
|urllib.error |模塊包含一些有urllib.request產生的錯誤,可以使用try進行捕捉處理|
|urllib.parse |模塊包含了一些解析URLs的方法 |
|urllib.robotparser |模塊用來解析robots.txt文本文件.它提供了一個單獨的RobotFileParser類,通過該類提供的can_fetch()方法測試爬蟲是否可以下載一個頁面 |
### 爬取一個網頁的步驟
1. 使用 `urllib.request.urlopen()` 打開一個網頁。
> urlopen有一些可選參數,具體信息可以查閱Python自帶的documentation。
2. 讀取網頁內容。
```python
# -*- coding: UTF-8 -*-
from urllib import request
if __name__ == "__main__":
response = request.urlopen("http://fanyi.baidu.com")
html = response.read()
html = html.decode('utf-8')
print(html)
```
3.
- 1. HTML
- 1.1 HTML 標簽
- 1.2 HTML 屬性
- 1.3 HTML5
- 2. CSS/CSS3
- 2.1 CSS3
- 2.2 Less
- 2.3 Sass
- 3. JavaScript
- 3.1 JQuery
- 3.2 javascript code
- 3.3 es6
- 4. 前端框架
- 4.1 Angular4+
- 4.2 React
- 4.3 Vue
- 5. 綜合知識
- 5.1 HTTP
- 5.2 websocket
- 5.3 綜合問題集合
- 5.4 前端優化
- 6. 附加知識
- 6.1 TCP/IP
- 6.2 數據結構
- 6.3 前端開發
- 7. 相關工具
- 7.1 Git
- 7.2 調試
- 7.3 Linux
- 8. 其他需要了解的內容
- 8.1 Python3
- 8.2 Java
- 8.3 數據庫