base64 · 廖雪峰的Python3.x教程

[TOC] ### 介紹 `Base64`是一種用64個字符來表示任意二進制數據的方法。 ### 使用用記事本打開`exe、jpg、pdf`這些文件時，我們都會看到一大堆亂碼，因為二進制文件包含很多無法顯示和打印的字符，所以，如果要讓記事本這樣的文本處理軟件能處理二進制數據，就需要一個二進制到字符串的轉換方法。Base64是一種最常見的二進制編碼方法。 `Base64`的原理很簡單，首先，準備一個包含`64`個字符的數組： ~~~ ['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/'] ~~~ 然后，對二進制數據進行處理，每3個字節一組，一共是`3x8=24bit`，劃為`4`組，每組正好`6`個`bit`： ![image](http://www.liaoxuefeng.com/files/attachments/001399415038305edba53df7d784a7fa76c6b7f6526873b000) ~~~ base64-encode ~~~ 這樣我們得到`4`個數字作為索引，然后查表，獲得相應的`4`個字符，就是編碼后的字符串。所以，`Base64`編碼會把`3`字節的二進制數據編碼為`4`字節的文本數據，長度增加`33%`，好處是編碼后的文本數據可以在郵件正文、網頁等直接顯示。如果要編碼的二進制數據不是`3`的倍數，最后會剩下`1`個或`2`個字節怎么辦？`Base64`用`\x00`字節在末尾補足后，再在編碼的末尾加上`1`個或`2`個`=`號，表示補了多少字節，解碼的時候，會自動去掉。 Python內置的`base64`可以直接進行`base64`的編解碼： ~~~ >>> import base64 >>> base64.b64encode(b'binary\x00string') b'YmluYXJ5AHN0cmluZw==' >>> base64.b64decode(b'YmluYXJ5AHN0cmluZw==') b'binary\x00string' ~~~ 由于標準的`Base64`編碼后可能出現字符`+`和`/`，在`URL`中就不能直接作為參數，所以又有一種`"url safe"的base64`編碼，其實就是把字符`+`和`/`分別變成`-`和`_`： ~~~ >>> base64.b64encode(b'i\xb7\x1d\xfb\xef\xff') b'abcd++//' >>> base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff') b'abcd--__' >>> base64.urlsafe_b64decode('abcd--__') b'i\xb7\x1d\xfb\xef\xff' ~~~ 還可以自己定義`64`個字符的排列順序，這樣就可以自定義`Base64`編碼，不過，通常情況下完全沒有必要。 `Base64`是一種通過查表的編碼方法，不能用于加密，即使使用自定義的編碼表也不行。 `Base64`適用于小段內容的編碼，比如數字證書簽名、`Cookie`的內容等。由于`=`字符也可能出現在`Base64`編碼中，但`=`用在`URL、Cookie`里面會造成歧義，所以，很多`Base64`編碼后會把`=`去掉： ~~~ # 標準Base64: 'abcd' -> 'YWJjZA==' # 自動去掉=: 'abcd' -> 'YWJjZA' ~~~ 去掉`=`后怎么解碼呢？因為`Base64`是把`3`個字節變為`4`個字節，所以，`Base64`編碼的長度永遠是`4`的倍數，因此，需要加上`=`把`Base64`字符串的長度變為`4`的倍數，就可以正常解碼了。 ### 小結 `Base64`是一種任意二進制到文本字符串的編碼方法，常用于在`URL、Cookie`、網頁中傳輸少量二進制數據。 ### 練習請寫一個能處理去掉`=`的`base64`解碼函數： ~~~ # -*- coding: utf-8 -*- import base64 def safe_base64_decode(s): pass # 測試: assert b'abcd' == safe_base64_decode(b'YWJjZA=='), safe_base64_decode('YWJjZA==') assert b'abcd' == safe_base64_decode(b'YWJjZA'), safe_base64_decode('YWJjZA') print('Pass') ~~~