編寫高效內存Python代碼的3個技巧

作者：聞數起舞 2021-02-23 10:48:30

大多數時候，我們不需要優化Python中的內存使用情況。我們的程序太小而無法占用大量內存，或者我們正在將數據存儲在程序外部的數據庫中。無論如何，在某些情況下，我們必須在內存中保留過大的結構或大量的對象。因此，我希望舉例說明可以減少程序內存使用量的做法。

介紹

[[383172]]

議程

用__slots__限制類字段
Generator惰性加載
用數組約束元素類型

用__slots__限制類字段

默認情況下，每當您在Python中創建對象時，即使在創建之后，您也能夠將新字段添加到對象。

例如，假設我有一個名為Dog的類：

class Dog:  
    def __init__(self, name, age):  
    self.name = name  
        self.age = age 
    def main():  
    dog = Dog("James", 5)  
        dog.breed = "Pitbull"  
        print(dog.breed) 
 
main()

盡管名稱和年齡是我傳遞給構造函數的唯一字段，但是請注意，在創建dog之后，如何初始化一個名為繁殖的新字段。本質上，dog的字段存儲在內部字典中，可通過.__ dict__訪問，并且在初始化dog.breed時，將其值為“ Pitbull”的字段“ breed”添加到內部字典中。

def main(): 
    dog = Dog("James", 5) 
    print(dog.__dict__)  
    ''' 
    output: {'name': 'James', 'age': 5} 
    ''' 
    dog.breed = "Pitbull" 
    print(dog.__dict__) 
    ''' 
    output: {'name': 'James', 'age': 5, 'breed': 'Pitbull'} 
    ''' 
main()

盡管這提供了靈活性，但大多數時候我們不需要在實例化之外添加新字段。為了節省內存占用量，我們可以設置Dog的__slots__屬性來預定義其字段。

class Dog: 
    __slots__ = ("name", "age") 
    def __init__(self, name, age): 
        self.name = name 
        self.age = age

使用__slots__可以防止創建內部字典，從而使我們可以更緊湊地存儲實例字段。但是，現在，我們不再能夠即時創建新字段。

def main(): 
    dog = Dog("James", 5) 
    dog.breed = "Pitbull"  
    ''' 
    output: AttributeError:'Dog' object has no attribute 'breed' 
    ''' 
   
main()

為了測試__slots__的內存使用情況，我創建了100,000個Dog和SlotDog對象。

class Dog: 
   
  def __init__(self, name, age): 
    self.name = name 
    self.age = age 
class SlotDog: 
     
   __slots__=("name", "age") 
   def __init__(self, name, age): 
     self.name = name 
     self.age = age

然后，我使用memory_profiler分解了創建100,000個對象后內存使用量的增加情況。創建Dog對象后，內存使用量增加了16.5 MiB，而SlotDog對象則增加了5.8 MiB，這表明使用__slots__有了很大的改進。您可以在GitHub上查看創建代碼(https://github.com/Ramko9999/Medium-Memory-Efficient-Python/blob/main/slots_perf.py)。

在必須實例化具有預定字段的大量對象的情況下，使用__slots__將是有益的。

用Genertor惰性加載

當使用大文件或集合時，可能無法加載整個文件或將集合維護在內存中。如果我們可以一次處理多個文件或集合中的一個元素，那就太好了。

進入生成器!

讓我們考慮一個例子。說我需要獲取前n個奇數進行處理。自然地，我們可以創建一個列表并附加前n個奇數。

def get_odds_list(n): 
    odds = [] 
    num = 1 
    for i in range(n): 
        odds.append(num) 
        num += 2 
    return odds

但是，如果我們要處理前幾百萬的賠率，那么在內存中維護此列表將變得昂貴。更好的方法是在我們計算賠率時利用生成器迭代賠率，而不是計算和存儲所有百萬賠率。

這是上面的函數作為生成器的樣子：

def get_odds_generator(n): 
    num = 1 
    for i in range(n): 
        yield num 
        num += 2 
odds = get_odds_generator(1000000)

當我們初始化賠率時，尚未計算任何奇數。此刻的賠率只是一個迭代器，一個值序列。為了訪問迭代器中的元素，我們必須在迭代器上調用next。顧名思義，next返回序列中的下一個值。

神奇之處在于yield關鍵字：它使函數成為生成器。本質上，當按賠率調用next時，生成器get_odds_generator將評估其代碼，直到達到yield為止。然后，生成器將返回該值，并且其狀態將凍結。然后，再次調用next時，生成器將從中斷狀態重新開始評估其代碼。

def get_odds_generator(n): 
    num = 1 
    for i in range(n): 
        yield num 
        num += 2 
 
odds = get_odds_generator(1000000) 
 
first = next(odds) 
''' 
first = 1 
Explanation: num is 1. We enter the for loop and immediately yield num 
''' 
 
second = next(odds) 
''' 
second = 3  
Explanation: num is 1. We add 2 to num, so its now 3.  
We go the next iteration of the loop and yield num 
''' 
 
third = next(odds) 
''' 
third = 5 
Explanation: num is 3. We add 2 to num, so its now 5.  
We go to the next iteration of the loop and yield num 
'''

我們還可以按照以下方式瀏覽生成器生成的值。

odds = get_odds_generator(1000000) 
for odd in odds: 
    pass //process the odd

我們可以使用生成器來計算賠率。因此，我們不需要任何額外的內存來存儲賠率。

使用生成器的一個警告是，我們將無法獲取先前的元素或跳過元素的序列。如果您需要訪問以前的元素，則最好直接使用列表。

用數組約束元素類型

盡管許多人認為列表在Python中是數組，但實際上存在一個單獨的數組模塊。列表和數組之間的核心區別在于，數組僅限于一種類型的元素。

我們可以使用多種類型的值在Python中創建列表。

lst = [1.0, 1, {}, "hi"]

數組不是這種情況。我們必須使用類型代碼指定數組中元素的類型。類型代碼是代表數組類型的字符：“ i”代表整數，“ b”代表字符，依此類推…

from array import array 
arr = array('i', []) # create an array of integers 
arr.append(4) # append 4 to arr 
arr.append('') # type error: integer is required not string

數組與列表有很多共同的方法，例如append和pop(文檔)。數組的主要優點是它們更加緊湊。為了測試這一點，我制作了一個包含一百萬個整數的列表和數組，發現該列表的內存使用量增加了19.5 MiB，而數組僅增加了4 MiB。簽出測量代碼(代碼)。

如果您有大量相同類型的數據序列，請考慮使用數組。

結論

過早的優化是萬惡之源。

-唐納德·埃文·克努斯

我已經展示了可以減少內存占用的多種實踐，從使用__slots__到數組不等。僅在真正需要優化內存的最壞情況下考慮使用這些做法。在大多數情況下，不需要__slots__和數組。另一方面，標準API很可能已經使用了生成器，因此您可以放輕松。

責任編輯：華軒來源：今日頭條

Python 代碼開發

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

編寫高效內存Python代碼的3個技巧