Python pickle模塊:實現Python對象的持久化存儲
Python 中有個序列化過程叫作 pickle,它能夠實現任意對象與文本之間的相互轉化,也可以實現任意對象與二進制之間的相互轉化。也就是說,pickle 可以實現 Python 對象的存儲及恢復。
值得一提的是,pickle 是 python 語言的一個標準模塊,安裝 python 的同時就已經安裝了 pickle 庫,因此它不需要再單獨安裝,使用 import 將其導入到程序中,就可以直接使用。
pickle 模塊提供了以下 4 個函數供我們使用:
- dumps():將 Python 中的對象序列化成二進制對象,并返回;
- loads():讀取給定的二進制對象數據,并將其轉換為 Python 對象;
- dump():將 Python 中的對象序列化成二進制對象,并寫入文件;
- load():讀取指定的序列化數據文件,并返回對象。
以上這 4 個函數可以分成兩類,其中 dumps 和 loads 實現基于內存的 Python 對象與二進制互轉;dump 和 load 實現基于文件的 Python 對象與二進制互轉。
pickle.dumps()函數
此函數用于將 Python 對象轉為二進制對象,其語法格式如下:
- dumps(obj, protocol=None, *, fix_imports=True)
此格式中各個參數的含義為:
- obj:要轉換的 Python 對象;
- protocol:pickle 的轉碼協(xié)議,取值為 0、1、2、3、4,其中 0、1、2 對應 Python 早期的版本,3 和 4 則對應 Python 3.x 版本及之后的版本。未指定情況下,默認為 3。
- 其它參數:為了兼容 Python 2.x 版本而保留的參數,Python 3.x 中可以忽略。
【例 1】
- import pickle
- tup1 = ('I love Python', {1,2,3}, None)
- #使用 dumps() 函數將 tup1 轉成 p1
- p1 = pickle.dumps(tup1)
- print(p1)
輸出結果為:
- b'\x80\x03X\r\x00\x00\x00I love Pythonq\x00cbuiltins\nset\nq\x01]q\x02(K\x01K\x02K\x03e\x85q\x03Rq\x04N\x87q\x05.'
pickle.loads()函數
此函數用于將二進制對象轉換成 Python 對象,其基本格式如下:
- loads(data, *, fix_imports=True, encoding='ASCII', errors='strict')
其中,data 參數表示要轉換的二進制對象,其它參數只是為了兼容 Python 2.x 版本而保留的,可以忽略。
【例 2】在例 1 的基礎上,將 p1 對象反序列化為 Python 對象。
- import pickle
- tup1 = ('I love Python', {1,2,3}, None)
- p1 = pickle.dumps(tup1)
- #使用 loads() 函數將 p1 轉成 Python 對象
- t2 = pickle.loads(p1)
- print(t2)
運行結果為:
- ('I love Python', {1, 2, 3}, None)
注意,在使用 loads() 函數將二進制對象反序列化成 Python 對象時,會自動識別轉碼協(xié)議,所以不需要將轉碼協(xié)議當作參數傳入。并且,當待轉換的二進制對象的字節(jié)數超過 pickle 的 Python 對象時,多余的字節(jié)將被忽略。
pickle.dump()函數
此函數用于將 Python 對象轉換成二進制文件,其基本語法格式為:
- dump (obj, file,protocol=None, *, fix mports=True)
其中各個參數的具體含義如下:
- obj:要轉換的 Python 對象。
- file:轉換到指定的二進制文件中,要求該文件必須是以"wb"的打開方式進行操作。
- protocol:和 dumps() 函數中 protocol 參數的含義完全相同,因此這里不再重復描述。
- 其他參數:為了兼容以前 Python 2.x版本而保留的參數,可以忽略。
【例 3】將 tup1 元組轉換成二進制對象文件。
- import pickle
- tup1 = ('I love Python', {1,2,3}, None)
- #使用 dumps() 函數將 tup1 轉成 p1
- with open ("a.txt", 'wb') as f: #打開文件
- pickle.dump(tup1, f) #用 dump 函數將 Python 對象轉成二進制對象文件
運行完此程序后,會在該程序文件同級目錄中,生成 a.txt 文件,但由于其內容為二進制數據,因此直接打開會看到亂碼。
pickle.load()函數
此函數和 dump() 函數相對應,用于將二進制對象文件轉換成 Python 對象。該函數的基本語法格式為:
- load(file, *, fix_imports=True, encoding='ASCII', errors='strict')
其中,file 參數表示要轉換的二進制對象文件(必須以 "rb" 的打開方式操作文件),其它參數只是為了兼容 Python 2.x 版本而保留的參數,可以忽略。
【例 4】將例 3 轉換的 a.txt 二進制文件對象轉換為 Python 對象。
- import pickle
- tup1 = ('I love Python', {1,2,3}, None)
- #使用 dumps() 函數將 tup1 轉成 p1
- with open ("a.txt", 'wb') as f: #打開文件
- pickle.dump(tup1, f) #用 dump 函數將 Python 對象轉成二進制對象文件
- with open ("a.txt", 'rb') as f: #打開文件
- t3 = pickle.load(f) #將二進制文件對象轉換成 Python 對象
- print(t3)
運行結果為:
- ('I love Python', {1, 2, 3}, None)
總結
看似強大的 pickle 模塊,其實也有它的短板,即 pickle 不支持并發(fā)地訪問持久性對象,在復雜的系統(tǒng)環(huán)境下,尤其是讀取海量數據時,使用 pickle 會使整個系統(tǒng)的I/O讀取性能成為瓶頸。這種情況下,可以使用 ZODB。
ZODB 是一個健壯的、多用戶的和面向對象的數據庫系統(tǒng),專門用于存儲 Python 語言中的對象數據,它能夠存儲和管理任意復雜的 Python 對象,并支持事務操作和并發(fā)控制。并且,ZODB 也是在 Python 的序列化操作基礎之上實現的,因此要想有效地使用 ZODB,必須先學好 pickle。