hashlib · 廖雪峰 JavaScript Python Git 教程

# hashlib ### 摘要算法簡介 Python的hashlib提供了常見的摘要算法，如MD5，SHA1等等。什么是摘要算法呢？摘要算法又稱哈希算法、散列算法。它通過一個函數，把任意長度的數據轉換為一個長度固定的數據串（通常用16進制的字符串表示）。舉個例子，你寫了一篇文章，內容是一個字符串`'how to use python hashlib - by Michael'`，并附上這篇文章的摘要是`'2d73d4f15c0db7f5ecb321b6a65e5d6d'`。如果有人篡改了你的文章，并發表為`'how to use python hashlib - by Bob'`，你可以一下子指出Bob篡改了你的文章，因為根據`'how to use python hashlib - by Bob'`計算出的摘要不同于原始文章的摘要。可見，摘要算法就是通過摘要函數`f()`對任意長度的數據`data`計算出固定長度的摘要`digest`，目的是為了發現原始數據是否被人篡改過。摘要算法之所以能指出數據是否被篡改過，就是因為摘要函數是一個單向函數，計算`f(data)`很容易，但通過`digest`反推`data`卻非常困難。而且，對原始數據做一個bit的修改，都會導致計算出的摘要完全不同。我們以常見的摘要算法MD5為例，計算出一個字符串的MD5值： ``` import hashlib md5 = hashlib.md5() md5.update('how to use md5 in python hashlib?') print md5.hexdigest() ``` 計算結果如下： ``` d26a53750bc40b38b65a520292f69306 ``` 如果數據量很大，可以分塊多次調用`update()`，最后計算的結果是一樣的： ``` md5 = hashlib.md5() md5.update('how to use md5 in ') md5.update('python hashlib?') print md5.hexdigest() ``` 試試改動一個字母，看看計算的結果是否完全不同。 MD5是最常見的摘要算法，速度很快，生成結果是固定的128 bit字節，通常用一個32位的16進制字符串表示。另一種常見的摘要算法是SHA1，調用SHA1和調用MD5完全類似： ``` import hashlib sha1 = hashlib.sha1() sha1.update('how to use sha1 in ') sha1.update('python hashlib?') print sha1.hexdigest() ``` SHA1的結果是160 bit字節，通常用一個40位的16進制字符串表示。比SHA1更安全的算法是SHA256和SHA512，不過越安全的算法越慢，而且摘要長度更長。有沒有可能兩個不同的數據通過某個摘要算法得到了相同的摘要？完全有可能，因為任何摘要算法都是把無限多的數據集合映射到一個有限的集合中。這種情況稱為碰撞，比如Bob試圖根據你的摘要反推出一篇文章`'how to learn hashlib in python - by Bob'`，并且這篇文章的摘要恰好和你的文章完全一致，這種情況也并非不可能出現，但是非常非常困難。 ### 摘要算法應用摘要算法能應用到什么地方？舉個常用例子：任何允許用戶登錄的網站都會存儲用戶登錄的用戶名和口令。如何存儲用戶名和口令呢？方法是存到數據庫表中： ``` name | password --------+---------- michael | 123456 bob | abc999 alice | alice2008 ``` 如果以明文保存用戶口令，如果數據庫泄露，所有用戶的口令就落入黑客的手里。此外，網站運維人員是可以訪問數據庫的，也就是能獲取到所有用戶的口令。正確的保存口令的方式是不存儲用戶的明文口令，而是存儲用戶口令的摘要，比如MD5： ``` username | password ---------+--------------------------------- michael | e10adc3949ba59abbe56e057f20f883e bob | 878ef96e86145580c38c87f0410ad153 alice | 99b1c2188db85afee403b1536010c2c9 ``` 當用戶登錄時，首先計算用戶輸入的明文口令的MD5，然后和數據庫存儲的MD5對比，如果一致，說明口令輸入正確，如果不一致，口令肯定錯誤。練習：根據用戶輸入的口令，計算出存儲在數據庫中的MD5口令： ``` def calc_md5(password): pass ``` 存儲MD5的好處是即使運維人員能訪問數據庫，也無法獲知用戶的明文口令。練習：設計一個驗證用戶登錄的函數，根據用戶輸入的口令是否正確，返回True或False： ``` db = { 'michael': 'e10adc3949ba59abbe56e057f20f883e', 'bob': '878ef96e86145580c38c87f0410ad153', 'alice': '99b1c2188db85afee403b1536010c2c9' } def login(user, password): pass ``` 采用MD5存儲口令是否就一定安全呢？也不一定。假設你是一個黑客，已經拿到了存儲MD5口令的數據庫，如何通過MD5反推用戶的明文口令呢？暴力破解費事費力，真正的黑客不會這么干。考慮這么個情況，很多用戶喜歡用`123456`，`888888`，`password`這些簡單的口令，于是，黑客可以事先計算出這些常用口令的MD5值，得到一個反推表： ``` 'e10adc3949ba59abbe56e057f20f883e': '123456' '21218cca77804d2ba1922c33e0151105': '888888' '5f4dcc3b5aa765d61d8327deb882cf99': 'password' ``` 這樣，無需破解，只需要對比數據庫的MD5，黑客就獲得了使用常用口令的用戶賬號。對于用戶來講，當然不要使用過于簡單的口令。但是，我們能否在程序設計上對簡單口令加強保護呢？由于常用口令的MD5值很容易被計算出來，所以，要確保存儲的用戶口令不是那些已經被計算出來的常用口令的MD5，這一方法通過對原始口令加一個復雜字符串來實現，俗稱“加鹽”： ``` def calc_md5(password): return get_md5(password + 'the-Salt') ``` 經過Salt處理的MD5口令，只要Salt不被黑客知道，即使用戶輸入簡單口令，也很難通過MD5反推明文口令。但是如果有兩個用戶都使用了相同的簡單口令比如`123456`，在數據庫中，將存儲兩條相同的MD5值，這說明這兩個用戶的口令是一樣的。有沒有辦法讓使用相同口令的用戶存儲不同的MD5呢？如果假定用戶無法修改登錄名，就可以通過把登錄名作為Salt的一部分來計算MD5，從而實現相同口令的用戶也存儲不同的MD5。練習：根據用戶輸入的登錄名和口令模擬用戶注冊，計算更安全的MD5： ``` db = {} def register(username, password): db[username] = get_md5(password + username + 'the-Salt') ``` 然后，根據修改后的MD5算法實現用戶登錄的驗證： ``` def login(username, password): pass ``` ### 小結摘要算法在很多地方都有廣泛的應用。要注意摘要算法不是加密算法，不能用于加密（因為無法通過摘要反推明文），只能用于防篡改，但是它的單向計算特性決定了可以在不存儲明文口令的情況下驗證用戶口令。