Python編程:如何搞定生成器(Generator)及表達式?來盤它!
前言
在前面的篇章中,我們學習了迭代器,這是一個很好的工具,特別是當你需要處理大型數據集時。然而,在Python中構建自己的迭代器有點麻煩和耗時。你必須定義一個實現迭代器協議(__iter__()和__next__()方法)的新類。在這個類中,需要自己管理變量的內部狀態并更新它們。此外,當__next__()方法中沒有要返回的值時,需要拋出StopIteration異常。
有沒有更好的實現方式呢?答案是肯定的!這就是Python的生成器(Generator)解決方案。下面就來盤盤它。
何為生成器?
為了更高效的構建自己的迭代器,在Python中對此有一個優雅的解決方案,這是很值得高興的。Python所提供的生成器(Generator)是用來幫助我們輕松創建迭代器。Generator允許你聲明一個行為類似迭代器的函數,也就是說,它可以在for循環中使用。簡單言之,生成器(Generator)就是個返回迭代器對象的函數。因此,這也是創建迭代器的簡單方法。在創建迭代器時,你不需要考慮所需的所有工作(如迭代協議和內部狀等),因為Generator將處理所有這些工作。
接下來,我們更進一步,輕松學懂Python中生成器是如何工作的以及如何定義它們。
定義生成器
如前一節所述,生成器是Python中一種特殊類型的函數。此函數不返回單個值,而是返回一個迭代器對象。在生成器函數中,返回值使用yield語句而不是return語句。下面定義一個簡單的生成器函數,代碼清單如下:
代碼清單片段-01
在上述清單中,我們定義一個生成器函數。該函數執行yield語句而不是return關鍵字。yield語句使這個函數成為生成器。當我們調用這個函數時,它將返回(產生)一個迭代器對象。我們再來看看生成器的調用:
代碼清單片段-02
調用生成器,通常就跟創建對象類似,調用生成器函數,并賦給變量。
運行程序輸出結果如下:
在應用生成器代碼中,我們調用firstGenerator()函數,它是一個生成器,并返回一個迭代器對象。我們將這個迭代器命名為myIter。然后在這個迭代器對象上調用next()函數。在每次next()調用中,迭代器按各自的順序執行yield語句并返回一個項。
根據規則,此生成器函數不應該包含return關鍵字。因為如果它包含,那么return語句將終止此函數,也就無從滿足迭代器的要求了。
現在,讓我們通過for循環的幫助來定義一個更具有實際意義的生成器。在本例中,我們將定義一個生成器,它將連續跟蹤生成從0開始的數字序列,直到給定的最大限制。
代碼清單如下:
代碼清單片段-03
運行程序輸出結果類似如下:
在上述清單中,我們定義一個生成器函數,它生成從0到給定數字的整數。正如所見,yield語句在for循環中。請注意,n的值自動存儲在連續的next()調用中。
有一點需要注意,在定義生成器時,返回值必須是yield語句,并不是說生成器不能出現return語句。只是通常把返回非None值return語句放在生成器最后,為StopIteration 異常添加附加信息,以便調用者處理。示例如下:
代碼清單片段-04
下面是未進行異常處理時運行程序輸出結果類似如下:
若對程序進行了異常捕捉處理(try-except),顯示結果更簡明,自己運行試試看。
生成器與普通函數
如果一個函數至少包含一個yield語句,那么它就是生成器函數。如果需要,還可以包含其他yield或return語句。yield和return關鍵字都將從函數中返回一些東西。
return和yield關鍵字之間的差異對于生成器來說非常重要。return語句會完全終止函數,而yield語句會暫停函數,保存它的所有狀態,然后在后續的調用中繼續執行。
我們調用生成器函數的方式和調用普通函數一樣。但在執行過程中,生成器在遇到yield關鍵字時暫停。它將迭代器流的當前值發送到調用環境,并等待下一次調用。同時,它在內部保存局部變量及其狀態。
以下是生成器函數與普通函數不同的關鍵點:
- ü Generator函數返回(生成)一個迭代器對象。你無需擔心顯式地創建此迭代器對象,yield關鍵字為你做了這個工作。
- ü Generator函數必須包含至少一個yield語句。如果需要,它可能包括多個yield關鍵字。
- ü Generator函數內部實現迭代器協議(iter()和next()方法)。
- ü Generator函數自動保存局部變量及其狀態。
- ü Generator函數在yield關鍵字處暫停執行,并將控制權傳遞給調用者。
- ü Generator函數在迭代器流沒有返回值時自動引發StopIteration異常。
我們用一個簡單的例子來演示普通函數和生成器函數之間的區別。在這個例子中,我們要計算前n個正整數的和。為此,我們將定義一個函數,該函數給出前n個正數的列表。我們將以兩種方式實現這個函數,一個普通函數和一個生成器函數。
普通函數代碼如下:
代碼清單片段-05
運行程序輸出結果類似如下:
在代碼清單中,我們定義一個普通函數,它返回前n個正整數的列表。當我們調用這個函數時,它需要一段時間來完成執行,因為它創建的列表非常龐大。它還使用了大量內存來完成此任務。
現在讓我們為相同的操作定義一個生成器函數來實現,代碼清單如下:
代碼清單片段-06
運行程序結果類似如下:
正如在生成器清單中所見,生成器在更短的時間內完成相同的任務,并且使用更少的內存資源。因為生成器是一個一個地生成項,而不是返回完整的列表。
性能改進的主要原因(當我們使用生成器時)是值的惰性生成。這種按需值生成的方式,會降低內存使用量。生成器的另一個優點是,你不需要等到所有元素都生成后才開始使用它們。
生成器表達式
有時候,我們需要簡單的生成器來執行代碼中相對簡單的任務。這正是生成器表達式(Generator Expression)用武之地。可以使用生成器表達式輕松地動態創建簡單的生成器。
生成器表達式類似于Python中的lambda函數。但要記住,lambda是匿名函數,它允許我們動態地創建單行函數。就像lambda函數一樣,生成器表達式創建的是匿名生成器函數。
生成器表達式的語法看起來像一個列表推導式。不同之處在于,我們在生成器表達式中使用圓括號而不是方括號。請看示例:
運行結果類似如下:
在上述清單中,我們在生成器表達式的幫助下定義了一個簡單的生成器。下面是語法:cubes_gen = (i**3 for i in nums)。你可以在輸出中看到生成器對象。正如所已經知的,為了能夠在生成器中獲取項,我們要么顯式調用next()方法,要么使用for循環遍歷生成器。接下來就打印cubes_gen對象中的項:
運行程序,遍歷出的元素項結果是否和列表推導式一樣。
我們再看一個例子。來定義一個生成器,將字符串中的字母轉換為大寫字母。然后調用next()方法打印前兩個字母。代碼示例如下:
運行輸出結果如下:
生成器好處
生成器是非常棒的工具,特別是當需要在相對有限的內存中處理大型數據時。以下是在Python中使用生成器的一些主要好處:
1)內存效率:
假設有一個返回結果非常大序列的普通函數。例如,一個包含數百萬項的列表。你必須等待這個函數完成所有的執行,并將整個列表返回給你。就時間和內存資源而言,這顯然是低效的。另一方面,如果你使用生成器函數,它將一個一個地返回項,你將有機會繼續執行下一行代碼。而不需要等待函數執行列表中的所有項。因為生成器一次只給你一項。
2)延遲計算:
生成器提供了延遲(惰性)計算求值的功能。延遲計算是在真正需要值時計算值,而不是在實例化時計算值。假設你有一個大數據集要計算,延遲計算允許你在整個數據集仍在計算生成中可立即開始使用數據。因為如果使用生成器,則不需要整個數據集。
3)易實現和可讀性:
生成器非常容易實現,并且提供了好的代碼可讀性。記住,如果你使用生成器,你不需要擔心__iter__()和__next__()方法。你所需要的只是函數中一個簡單的yield語句。
4)處理無限流:
當你需要表示無限的數據流時,生成器是非常棒的工具。例如,一個無限計數器。理論上,你不能在內存中存儲無限流的,因為你無法確定存儲無限流需要多少的內存大小。這是生成器真正發揮作用的地方,因為它一次只產生一項,它可以表示無限的數據流。它不需要將所有的數據流存儲在內存中。
本文小結
主要介紹了生成器相關知識,用于更好的自定義迭代器。內容包括何為生成器?如何自定義生成器以及和普通函數的關鍵區別?如何實現生成器表達式?并總結了生成器的有點。通過這篇文章,相信你能更輕松高效的掌握Python常規的生成器方方面面。