Python列表和集合的效率對比
程序運行效率
程序的運行效率分為兩種:第一種是時間效率,第二種是空間效率。時間效率被稱為時間復雜度,而空間效率被稱作空間復雜度。時間復雜度主要衡量的是一個程序的運行速度,而空間復雜度主要衡量一個程序所需要的額外存儲空間。
一個程序執行所耗費的時間,從理論上說,是不能算出來的,只有你把程序放在機器上跑起來,才能知道,不同機器不同時間得出的結果可能不一樣。但是我們需要每個程序都上機測試嗎?顯然不現實,所以才有了時間復雜度這個分析方式。實際中我們計算時間復雜度時,其實并不一定要計算精確的執行次數,而只需要大概執行次數,一般會使用大O漸進表示法,平時執行次數為1次的我們就可以說時間復雜度是O(1),需要n次的就可以說時間復雜度是O(n)。
空間復雜度是對一個算法在運行過程中臨時占用存儲空間大小的量度。空間復雜度不是程序占用了多少個字節的空間,因為這個實際運行過程中很難計算,所以空間復雜度算的是變量的個數。空間復雜度計算規則基本跟時間復雜度類似,也使用大O漸進表示法。
Python組合數據類型中常用的主要有元組、列表、集合和字典,每種數據類型不同操作的時間復雜度可以參考Python的官方鏈接,網頁中有詳細的說明,
- https://wiki.python.org/moin/TimeComplexity
元組和列表都屬于序列類型,他們存儲機制基本一致;集合和字典也是基本相同,唯一的區別就是集合每個元素沒有對應的值。接下來我們以集合和列表為例看看他們的查找效率和存儲開銷。
數據查找效率
關于集合和列表數據查找效率差距到底有多大?先看一組實例:
import time
import random
nums = [random.randint(0, 2000000) for i in range(1000)]
list_test = list(range(1000000))
set_test = set(list_test)
count_list, count_set = 0, 0
t1 = time.time() # 測試在列表中進行查找
for num in nums:
if num in list_test:
count_list += 1
t2 = time.time()
for num in nums: # 測試在集合中進行查找
if num in set_test:
count_set += 1
t3 = time.time() # 測試在集合中進行查找
print('找到個數,列表:{},集合:{}'.format(count_list, count_set))
print('使用時間,列表:{:.4f}s'.format(t2 - t1))
print('使用時間,集合:{:.4f}s'.format(t3 - t2))
輸出結果為:
找到個數,列表:515,集合:515
使用時間,列表:7.7953s
使用時間,集合:0.0010s
從上面例子可以清楚地看出,集合的查找效率遠遠高于列表,因此在不同的應用場景下,一定要選擇合適的數據類型,在小數據量下看不出來性能區別,一旦換到大數據量下,就會變得差異性很大。
數據存儲開銷
集合的查找效率比列表要快得多,主要就是他們的存儲原理不一樣,集合需要消耗更多的空間來存儲額外的信息,用空間開銷來換時間效率,接下來我們通過getsizeof()函數看看他們存儲開銷的差異,getiszeof()函數是python的sys模塊中用來獲取對象內存大小的函數,返回的大小以字節為單位。
import sys
import random
list_test = list(range(1000000))
set_test = set(range(1000000))
print('列表占用大小:', sys.getsizeof(list_test))
print('集合占用大小:', sys.getsizeof(set_test))
輸出結果為:
列表占用大小:9000112
集合占用大小:33554656
從結果可以看出,同樣的數據內容,集合存儲的開銷是列表的好幾倍。