序列化 · 廖雪峰的Python3.x教程

[TOC] ### 引入在程序運行的過程中，所有的變量都是在內存中，比如，定義一個`dict`： ~~~ d = dict(name='Bob', age=20, score=88) ~~~ 可以隨時修改變量，比如把`name`改成`'Bill'`，但是一旦程序結束，變量所占用的內存就被操作系統全部回收。如果沒有把修改后的`'Bill'`存儲到磁盤上，下次重新運行程序，變量又被初始化為`'Bob'`。我們把變量從內存中變成可存儲或傳輸的過程稱之為序列化，在Python中叫`pickling`，在其他語言中也被稱之為`serialization`，`marshalling`，`flattening`等等，都是一個意思。序列化之后，就可以把序列化后的內容寫入磁盤，或者通過網絡傳輸到別的機器上。反過來，把變量內容從序列化的對象重新讀到內存里稱之為反序列化，即`unpickling`。 ### 實現序列化 #### `pickle`模塊實現 Python提供了`pickle`模塊來實現序列化。首先，我們嘗試把一個對象序列化并寫入文件： ~~~ >>> import pickle >>> d = dict(name='Bob', age=20, score=88) >>> pickle.dumps(d) b'\x80\x03}q\x00(X\x03\x00\x00\x00ageq\x01K\x14X\x05\x00\x00\x00scoreq\x02KXX\x04\x00\x00\x00nameq\x03X\x03\x00\x00\x00Bobq\x04u.' ~~~ `pickle.dumps()`方法把任意對象序列化成一個`bytes`，然后，就可以把這個`bytes`寫入文件。或者用另一個方法`pickle.dump()`直接把對象序列化后寫入一個`file-like Object`： ~~~ >>> f = open('dump.txt', 'wb') >>> pickle.dump(d, f) >>> f.close() ~~~ 看看寫入的`dump.txt`文件，一堆亂七八糟的內容，這些都是Python保存的對象內部信息。當我們要把對象從磁盤讀到內存時，可以先把內容讀到一個`bytes`，然后用`pickle.loads()`方法反序列化出對象，也可以直接用`pickle.load()`方法從一個`file-like Object`中直接反序列化出對象。我們打開另一個Python命令行來反序列化剛才保存的對象： ~~~ >>> f = open('dump.txt', 'rb') >>> d = pickle.load(f) >>> f.close() >>> d {'age': 20, 'score': 88, 'name': 'Bob'} ~~~ 變量的內容又回來了！當然，這個變量和原來的變量是完全不相干的對象，它們只是內容相同而已。 `Pickle`的問題和所有其他編程語言特有的序列化問題一樣，就是它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用`Pickle`保存那些不重要的數據，不能成功地反序列化也沒關系。 #### JSON 實現如果我們要在不同的編程語言之間傳遞對象，就必須把對象序列化為標準格式，比如`XML`，但更好的方法是序列化為`JSON`，因為`JSON`表示出來就是一個字符串，可以被所有語言讀取，也可以方便地存儲到磁盤或者通過網絡傳輸。`JSON`不僅是標準格式，并且比`XML`更快，而且可以直接在`Web`頁面中讀取，非常方便。 `JSON`表示的對象就是標準的`JavaScript`語言的對象，`JSON`和Python內置的數據類型對應如下： | | | |---|---| |JSON類型 |Python類型| |{} |dict| |[]| list| |"string"| str| |1234.56| int或float| |true/false| True/False| |null| None| ||| Python內置的`json`模塊提供了非常完善的Python對象到`JSON`格式的轉換。我們先看看如何把Python對象變成一個JSON： ~~~ >>> import json >>> d = dict(name='Bob', age=20, score=88) >>> json.dumps(d) '{"age": 20, "score": 88, "name": "Bob"}' ~~~ `dumps()`方法返回一個`str`，內容就是標準的`JSON`。類似的，`dump()`方法可以直接把`JSON`寫入一個`file-like Object`。要把`JSON`反序列化為Python對象，用`loads()`或者對應的`load()`方法，前者把`JSON`的字符串反序列化，后者從`file-like Object`中讀取字符串并反序列化： ~~~ >>> json_str = '{"age": 20, "score": 88, "name": "Bob"}' >>> json.loads(json_str) {'age': 20, 'score': 88, 'name': 'Bob'} ~~~ 由于`JSON`標準規定`JSON`編碼是`UTF-8`，所以我們總是能正確地在Python的`str`與`JSON`的字符串之間轉換。 #### JSON 進階 Python的`dict`對象可以直接序列化為`JSON`的`{}`，不過，很多時候，我們更喜歡用`class`表示對象，比如定義`Student`類，然后序列化： ~~~ import json class Student(object): def __init__(self, name, age, score): self.name = name self.age = age self.score = score s = Student('Bob', 20, 88) print(json.dumps(s)) ~~~ 運行代碼，毫不留情地得到一個`TypeError`： ~~~ Traceback (most recent call last): ... TypeError: <__main__.Student object at 0x10603cc50> is not JSON serializable ~~~ 錯誤的原因是`Student`對象不是一個可序列化為`JSON`的對象。如果連`class`的實例對象都無法序列化為`JSON`，這肯定不合理！別急，我們仔細看看`dumps()`方法的參數列表，可以發現，除了第一個必須的`obj`參數外，`dumps()`方法還提供了一大堆的可選參數： https://docs.python.org/3/library/json.html#json.dumps 這些可選參數就是讓我們來定制`JSON`序列化。前面的代碼之所以無法把`Student`類實例序列化為`JSON`，是因為默認情況下，`dumps()`方法不知道如何將Student實例變為一個`JSON`的`{}`對象。可選參數`default`就是把任意一個對象變成一個可序列為`JSON`的對象，我們只需要為`Student`專門寫一個轉換函數，再把函數傳進去即可： ~~~ def student2dict(std): return { 'name': std.name, 'age': std.age, 'score': std.score } ~~~ 這樣，`Student`實例首先被`student2dict()`函數轉換成`dict`，然后再被順利序列化為`JSON`： ~~~ >>> print(json.dumps(s, default=student2dict)) {"age": 20, "name": "Bob", "score": 88} ~~~ 不過，下次如果遇到一個`Teacher`類的實例，照樣無法序列化為`JSON`。我們可以偷個懶，把任意`class`的實例變為`dict`： `print(json.dumps(s, default=lambda obj: obj.__dict__))` 因為通常`class`的實例都有一個`__dict__`屬性，它就是一個`dict`，用來存儲實例變量。也有少數例外，比如定義了`__slots__`的`class`。同樣的道理，如果我們要把`JSON`反序列化為一個`Student`對象實例，`loads()`方法首先轉換出一個`dict`對象，然后，我們傳入的`object_hook`函數負責把dict轉換為Student實例： ~~~ def dict2student(d): return Student(d['name'], d['age'], d['score']) ~~~ 運行結果如下： ~~~ >>> json_str = '{"age": 20, "score": 88, "name": "Bob"}' >>> print(json.loads(json_str, object_hook=dict2student)) <__main__.Student object at 0x10cd3c190> ~~~ 打印出的是反序列化的`Student`實例對象。 ### 小結 Python語言特定的序列化模塊是`pickle`，但如果要把序列化搞得更通用、更符合`Web`標準，就可以使用`json`模塊。 `json`模塊的`dumps()`和`loads()`函數是定義得非常好的接口的典范。當我們使用時，只需要傳入一個必須的參數。但是，當默認的序列化或反序列機制不滿足我們的要求時，我們又可以傳入更多的參數來定制序列化或反序列化的規則，既做到了接口簡單易用，又做到了充分的擴展性和靈活性。