[TOC]
### 介紹
`Base64`是一種用64個字符來表示任意二進制數據的方法。
### 使用
用記事本打開`exe、jpg、pdf`這些文件時,我們都會看到一大堆亂碼,因為二進制文件包含很多無法顯示和打印的字符,所以,如果要讓記事本這樣的文本處理軟件能處理二進制數據,就需要一個二進制到字符串的轉換方法。Base64是一種最常見的二進制編碼方法。
`Base64`的原理很簡單,首先,準備一個包含`64`個字符的數組:
~~~
['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']
~~~
然后,對二進制數據進行處理,每3個字節一組,一共是`3x8=24bit`,劃為`4`組,每組正好`6`個`bit`:

~~~
base64-encode
~~~
這樣我們得到`4`個數字作為索引,然后查表,獲得相應的`4`個字符,就是編碼后的字符串。
所以,`Base64`編碼會把`3`字節的二進制數據編碼為`4`字節的文本數據,長度增加`33%`,好處是編碼后的文本數據可以在郵件正文、網頁等直接顯示。
如果要編碼的二進制數據不是`3`的倍數,最后會剩下`1`個或`2`個字節怎么辦?`Base64`用`\x00`字節在末尾補足后,再在編碼的末尾加上`1`個或`2`個`=`號,表示補了多少字節,解碼的時候,會自動去掉。
Python內置的`base64`可以直接進行`base64`的編解碼:
~~~
>>> import base64
>>> base64.b64encode(b'binary\x00string')
b'YmluYXJ5AHN0cmluZw=='
>>> base64.b64decode(b'YmluYXJ5AHN0cmluZw==')
b'binary\x00string'
~~~
由于標準的`Base64`編碼后可能出現字符`+`和`/`,在`URL`中就不能直接作為參數,所以又有一種`"url safe"的base64`編碼,其實就是把字符`+`和`/`分別變成`-`和`_`:
~~~
>>> base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd++//'
>>> base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
b'i\xb7\x1d\xfb\xef\xff'
~~~
還可以自己定義`64`個字符的排列順序,這樣就可以自定義`Base64`編碼,不過,通常情況下完全沒有必要。
`Base64`是一種通過查表的編碼方法,不能用于加密,即使使用自定義的編碼表也不行。
`Base64`適用于小段內容的編碼,比如數字證書簽名、`Cookie`的內容等。
由于`=`字符也可能出現在`Base64`編碼中,但`=`用在`URL、Cookie`里面會造成歧義,所以,很多`Base64`編碼后會把`=`去掉:
~~~
# 標準Base64:
'abcd' -> 'YWJjZA=='
# 自動去掉=:
'abcd' -> 'YWJjZA'
~~~
去掉`=`后怎么解碼呢?因為`Base64`是把`3`個字節變為`4`個字節,所以,`Base64`編碼的長度永遠是`4`的倍數,因此,需要加上`=`把`Base64`字符串的長度變為`4`的倍數,就可以正常解碼了。
### 小結
`Base64`是一種任意二進制到文本字符串的編碼方法,常用于在`URL、Cookie`、網頁中傳輸少量二進制數據。
### 練習
請寫一個能處理去掉`=`的`base64`解碼函數:
~~~
# -*- coding: utf-8 -*-
import base64
def safe_base64_decode(s):
pass
# 測試:
assert b'abcd' == safe_base64_decode(b'YWJjZA=='), safe_base64_decode('YWJjZA==')
assert b'abcd' == safe_base64_decode(b'YWJjZA'), safe_base64_decode('YWJjZA')
print('Pass')
~~~
- Python教程
- Python簡介
- 安裝Python
- Python解釋器
- 第一個 Python 程序
- 使用文本編輯器
- Python代碼運行助手
- 輸入和輸出
- 源碼
- learning.py
- Python基礎
- 數據類型和變量
- 字符串和編碼
- 使用list和tuple
- 條件判斷
- 循環
- 使用dict和set
- 函數
- 調用函數
- 定義函數
- 函數的參數
- 遞歸函數
- 高級特性
- 切片
- 迭代
- 列表生成式
- 生成器
- 迭代器
- 函數式編程
- 高階函數
- map/reduce
- filter
- sorted
- 返回函數
- 匿名函數
- 裝飾器
- 偏函數
- Python函數式編程——偏函數(來自博客)
- 模塊
- 使用模塊
- 安裝第三方模塊
- 面向對象編程
- 類和實例
- 訪問限制
- 繼承和多態
- 獲取對象信息
- 實例屬性和類屬性
- 面向對象高級編程
- 使用__slots__
- 使用@property
- 多重繼承
- 定制類
- 使用枚舉類
- 使用元類
- 錯誤、調試和測試
- 錯誤處理
- 調試
- 單元測試
- 文檔測試
- IO編程
- 文件讀寫
- StringIO和BytesIO
- 操作文件和目錄
- 序列化
- 進程和線程
- 多進程
- 多線程
- ThreadLocal
- 進程 vs. 線程
- 分布式進程
- 正則表達式
- 常用內建模塊
- datetime
- collections
- base64
- struct
- hashlib
- itertools
- contextlib
- XML
- HTMLParser
- urllib
- 常用第三方模塊
- PIL
- virtualenv
- 圖形界面
- 網絡編程
- TCP/IP簡介
- TCP編程
- UDP編程
- 電子郵件
- SMTP發送郵件
- POP3收取郵件
- 訪問數據庫
- 使用SQLite
- 使用MySQL
- 使用SQLAlchemy
- Web開發
- HTTP協議簡介
- HTML簡介
- WSGI接口
- 使用Web框架
- 使用模板
- 異步IO
- 協程
- asyncio
- async/await
- aiohttp
- 實戰
- Day 1 - 搭建開發環境
- Day 2 - 編寫Web App骨架
- Day 3 - 編寫ORM
- Day 4 - 編寫Model
- Day 5 - 編寫Web框架
- Day 6 - 編寫配置文件
- Day 7 - 編寫MVC
- Day 8 - 構建前端
- Day 9 - 編寫API
- Day 10 - 用戶注冊和登錄
- Day 11 - 編寫日志創建頁
- Day 12 - 編寫日志列表頁
- Day 13 - 提升開發效率
- Day 14 - 完成Web App
- Day 15 - 部署Web App
- Day 16 - 編寫移動App
- FAQ
- 期末總結