編碼 · python

[TOC] # 編碼在最新的Python 3版本中，字符串是以Unicode編碼的，也就是說，Python的字符串支持多語言，例如： ~~~ >>> print('包含中文的str') ~~~ 包含中文的str 對于單個字符的編碼，Python提供了ord()函數獲取字符的整數表示，chr()函數把編碼轉換為對應的字符： ~~~ >>> ord('A') 65 >>> ord('中') 20013 >>> chr(66) 'B' >>> chr(25991) '文' ~~~ 如果知道字符的整數編碼，還可以用十六進制這么寫str： ~~~ >>> '\u4e2d\u6587' '中文' ~~~ 兩種寫法完全是等價的。由于Python的字符串類型是str，在內存中以Unicode表示，一個字符對應若干個字節。如果要在網絡上傳輸，或者保存到磁盤上，就需要把str變為以字節為單位的bytes。 **Python對bytes類型的數據用帶b前綴的單引號或雙引號表示：** b代表字節 ~~~ x = b'ABC' ~~~ 要注意區分'ABC'和b'ABC'，前者是str，后者雖然內容顯示得和前者一樣，但bytes的每個字符都只占用一個字節。 **以Unicode表示的str通過encode()方法可以編碼為指定的bytes** ~~~ >>> 'ABC'.encode('ascii') b'ABC' >>> '中文'.encode('utf-8') b'\xe4\xb8\xad\xe6\x96\x87' >>> '中文'.encode('ascii') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) ~~~ 純英文的str可以用ASCII編碼為bytes，內容是一樣的，含有中文的str可以用UTF-8編碼為bytes。含有中文的str無法用ASCII編碼，因為中文編碼的范圍超過了ASCII編碼的范圍，Python會報錯。在bytes中，無法顯示為ASCII字符的字節，用\x##顯示。反過來，**如果我們從網絡或磁盤上讀取了字節流，那么讀到的數據就是bytes。要把bytes變為str，就需要用decode()方法** ~~~ >>> b'ABC'.decode('ascii') 'ABC' >>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8') '中文' ~~~ 如果bytes中包含無法解碼的字節，decode()方法會報錯： ~~~ >>> b'\xe4\xb8\xad\xff'.decode('utf-8') Traceback (most recent call last): ... UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte ~~~ **如果bytes中只有一小部分無效的字節，可以傳入`errors='ignore'`忽略錯誤的字節** ~~~ >>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore') '中' ~~~ 要計算str包含多少個字符，可以用len()函數： ~~~ >>> len('ABC') 3 >>> len('中文') 2 ~~~ **len()函數計算的是str的字符數，如果換成bytes，len()函數就計算字節數：** ~~~ >>> len(b'ABC') 3 # 中文每個字符占用三個字節 >>> len(b'\xe4\xb8\xad\xe6\x96\x87') 6 >>> len('中文'.encode('utf-8')) 6 ~~~ 可見，1個中文字符經過UTF-8編碼后通常會占用3個字節，而1個英文字符只占用1個字節。在操作字符串時，我們經常遇到str和bytes的互相轉換。為了避免亂碼問題，應當始終堅持使用UTF-8編碼對str和bytes進行轉換。由于Python源代碼也是一個文本文件，所以，當你的源代碼中包含中文的時候，在保存源代碼時，就需要務必指定保存為UTF-8編碼。當Python解釋器讀取源代碼時，為了讓它按UTF-8編碼讀取，我們通常在文件開頭寫上這兩行： ~~~ #!/usr/bin/env python3 # -*- coding: utf-8 -*- ~~~ 第一行注釋是為了告訴Linux/OS X系統，這是一個Python可執行程序，Windows系統會忽略這個注釋；第二行注釋是為了告訴Python解釋器，按照UTF-8編碼讀取源代碼，否則，你在源代碼中寫的中文輸出可能會有亂碼。申明了UTF-8編碼并不意味著你的.py文件就是UTF-8編碼的，必須并且要確保文本編輯器正在使用UTF-8 without BOM編碼 # 注釋 **單行注釋** 以`#`開頭，`#`右邊的所有東西當做說明，而不是真正要執行的程序，起輔助說明作用 ~~~ # 我是注釋，可以在里寫一些功能說明之類的哦 print('hello world') ~~~ **多行注釋** ~~~ '''我是多行注釋，可以寫很多很多行的功能說明這就是我牛X指出哈哈哈。。。 ''' ''' 多行注釋 ''' ~~~