Python之父的加速秘籍:PyPy能讓代碼運行得更快
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
當我們提及Python時,常常指的是CPython,即C語言實現的Python,這就是PyPy發揮作用的地方啦。實話講,Python很慢,而用Python(!)編寫的Python在運行時,執行速度比CPython快4.4倍。這是如何實現的呢?
正如Python之父吉多·范羅蘇姆(Guido van Rossum)所說:“如果想讓代碼運行得更快,應該使用PyPy。”
第一批使用PyPy的程序員競爭力很強。有時候,就算花了很多時間用Python編寫解決方案,最后也會失敗,但是在PyPy中運行同樣的代碼就會成功。這是為什么?
不同的方法
Python是一種解釋性語言,CPython逐行讀取并執行源代碼。解釋性語言(包括JavaScript)有很多優點:
- 易于編寫
- 元編程能力強大
- 編譯不會失敗
當然,它也有一些缺點:
- 在解析源代碼時,性能消耗巨大
- 編譯不會失敗
可以看到,其優缺點都包括了“編譯不會失敗”。這有時候基于不同的行為(比如原型設計或生產),但我仍然傾向于將其視為一個缺點。而PyPy稍有不同,它不是一個純粹的解釋器,而是實現了跟蹤即時(JIT)編譯。
即時編譯
即時編譯介于解釋和傳統提前編譯之間。即時編譯器并不執行源代碼本身,而是生成一組可立即執行的低層指令(通常是匯編)。
這個插圖可以幫助我們理解其中的區別。在編譯語言(C、C++、Rust)中,編譯階段嚴格按照開發環境劃分。它生成一個可運行的二進制文件,然后將其發送到生產環境中。
在解釋性語言中,情況正好相反:源代碼(在*化之后,hello JS)被全部推到生產環境中,由解釋器執行。即時編譯語言也運送源代碼(或字節碼,如Java或C#),但它是作為一種常規編譯語言編譯和運行,而不是逐行解釋。
并不是說一種方法比另一種好,每個用例都將根據其獨特的需求指定正確的選擇。但是,如果性能非常關鍵,使用Python解釋器感覺很舒服,那么你可以選擇PyPy。
跟蹤即時編譯
與編譯或解釋一樣,實現即時編譯也有不同的方法。傳統的方法是方法/函數作用域。當代碼調用一個函數時,即時編譯器將獲得它的源代碼,進行編譯并提供可執行的二進制文件。而PyPy采用的方法稍微不同,這是由Python的特性和用例決定的。
PyPy的編譯器不是按方法調用,而是計算循環。由于Python在數據科學、機器學習、高級算法以及數據結構中使用廣泛,這是最有意義的。簡而言之,PyPy是Python之上的一個優化層。
PyPy并不像所理解的那樣嚴格處理循環。除了常規的for和while結構外,如果PyPy檢測到編譯工作有價值,它會優化任意代碼塊。
缺點
圖源:unsplash
當然,PyPy也有缺點。即使它能大大提高性能,你也需要知道以下幾點:
- 不支持所有的Python。它支持大部分代碼,但是如果處理底層的CPython實現細節或者有Cython綁定,它就不起作用了。
- 回溯未來。PyPy當前版本是3.4,而Python目前穩定在3.8,但是回溯法是Python開發者擅長的技術。
- 優化是好事,但不是編寫糟糕代碼的借口。如果代碼無法被人讀懂, PyPy又怎能理解呢?
- 全局解釋器鎖還在。如果執行繁重的多線程操作,請選擇其他實現方法。
與任何工具一樣,在采用之前,我們應該考慮所有的細節。不過,下次登錄到Codeforces接受挑戰時,不妨試用一下PyPy。有可能O(n^3)錯誤代碼會通過,而在純Python中,只有O(n log n)會通過。
源代碼
雖然本文沒有涉及CPython和PyPy的源代碼,但是這些文件在CPython (C代碼)和PyPy (Python代碼)中實現了階乘函數。
- CPython:https://github.com/python/cpython/blob/master/Modules/mathmodule.c
- PyPy:https://github.com/mozillazg/pypy/blob/50d6bf76ef1f93c234ab42d4dd4a3b974f9665d6/pypy/module/math/app_math.py
其他實現
除了CPython和PyPy,還有其他值得注意的Python實現:
- StacklessPython。它和Python相同,但沒有全局解釋器鎖,《星戰前夜》游戲后端用的就是它。
- IronPython是一種在 NET上實現的 Python 語言,它為Python和c#代碼提供了非常簡單的交互操作。
- JPython同理,但是有Java。
去試試使用PyPy來體驗代碼加速度吧!