妙手回春:內存泄漏診斷案例分析
本文轉載自微信公眾號「小菜學編程」,作者fasionchan。轉載本文請聯系小菜學編程公眾號。
雖然 Python 自帶垃圾回收機制,替開發人員管理內存,并不意味著 Python 程序沒有內存泄露之虞。實際上,Python 程序內存泄露問題時有發生——程序跑著跑著,占用內存越來越多,最后只能動用重啟大法釋放內存……
由于內存分配回收工作已被 Python 接管,內存泄露問題排查起來相對來說也比較晦澀。正常情況下,引用計數 機制確保對象沒有引用時釋放,而 標記清除 則解決了 循環引用 的問題,理論上不存在內存泄露的可能性。
那么,Python 程序內存泄露問題一般是如何造成的呢?程序員的失誤是其中的主要原因,最常見的是下面兩點:
- 容器泄露 ,使用容器對象存儲數據,但數據只進不出,沒有清理機制,容器便慢慢變大,最后撐爆內存;
- __del__ 魔術方法誤用,如果對象實現了 __del__ 魔術方法,Python 就無法用標記清除法解決循環引用問題,這必然帶來內存泄露風險;
既然內存泄露無法完全避免,當 Python 程序發生內存泄漏時,又該如何排查呢?
本節,我們將以一個簡單的案例,詳細講解預防、排查、解決 Python 內存泄露問題的 方法論 。
工欲善其事,必先利其器。在這個過程中,我們將利用一些趁手的工具(例如 objgraph 等)。只有選擇正確工具,掌握工具正確使用姿勢,才能做到事半功倍。
問題服務
我們以一個存在內存泄露問題的 API 服務( service.py )作為例子,演示定位內存泄露問題的步驟:
- import uvicorn
- from fastapi import FastAPI
- from faker import Faker
- from pyconsole import start_console_server
- faker = Faker()
- cache = {}
- app = FastAPI()
- async def fetch_user_from_database(user_id):
- return {
- 'user_id': faker.sha256() if user_id == 'random' else user_id,
- 'name': faker.name(),
- 'email': faker.email(),
- 'address': faker.address(),
- 'desc': faker.text(),
- }
- async def get_user(user_id):
- data = cache.get(user_id)
- if data is not None:
- return data
- data = await fetch_user_from_database(user_id)
- cache[data['user_id']] = data
- return data
- @app.get('/users/{user_id}')
- async def retrieve_user(user_id):
- return await get_user(user_id)
- if __name__ == '__main__':
- start_console_server()
- uvicorn.run(app)
這是一個基于 fastapi 框架編寫的 API 服務,它只實現了一個接口:根據用戶 ID 獲取用戶信息。API 服務由 uvicorn 啟動,它是一個性能非常優秀的 ASGI 服務器。
為減少數據庫訪問頻率,程序將數據庫返回的用戶數據,以用戶 ID 為索引,緩存在內存中( cache 字典)。注意到,演示服務直接使用 faker 隨機生成用戶數據,模擬數據庫查詢,以此消除數據庫依賴。
順便提一下,faker 是一個生成假數據的模塊,非常好用。特別是需要測試數據時,完全不用自己絞盡腦汁拼造。
服務還啟動了一個遠程交互式終端,以便我們可以連上服務進程,并在里面執行一些代碼。交互式終端的源碼可以在 github 上獲得:pyconsole.py ,原理超過本節討論范圍不展開介紹。
由于例子代碼非常簡單,哪里內存泄露我們甚至僅憑肉眼便可看出。盡管如此,我們假裝什么都不知道,來研究解決問題的思路:如何觀察程序?如何運用工具來獲取一些關鍵信息?如何分析各個線索?如何逐步接近問題的根源?
運行服務
由于服務依賴幾個第三方包,啟動它之前請先用 pip 安裝這些依賴包,并且確保安裝是成功的:
- $ pip install uvicorn
- $ pip install fastapi
- $ pip install faker
直接執行 service.py 即可啟動服務,默認它會監聽 8000 端口:
- $ python service.py
- INFO: Started server process [76591]
- INFO: Waiting for application startup.
- INFO: Application startup complete.
- INFO: Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
服務啟動后,即可通過 8000 端口訪問用戶信息接口,用戶 ID 可以隨便給:
- $ curl http://127.0.0.1:8000/users/bef76936c7d22e98f3d7b4c7e1aeef524da4ec1b48f871926fee43c5ec071a2d
- {"user_id":"bef76936c7d22e98f3d7b4c7e1aeef524da4ec1b48f871926fee43c5ec071a2d","name":"Patricia Johnson","email":"epatton@yahoo.com","address":"837 Jacobs Field\nGregorybury, ND 81050","desc":"Third choice air together expect account war. Seven dog safe significant. Expect exist wrong finish window there raise. Third blue and cover."}
服務接口還支持隨機查詢,隨機返回一個用戶的信息:
- $ curl http://127.0.0.1:8000/users/random
- {"user_id":"d6a55f04bab8ddec83d651bdca77f7215042b792970482213b6da56a119f18a8","name":"Evan Carter","email":"andrea79@garcia.com","address":"109 Miller Lights Apt. 843\nPort Jamie, IN 97570","desc":"Resource green allow him. Build store enough effect alone. Everybody right remember public coach book not.\nConference respond trip girl."}
遠程終端
我們直接執行 pyconsole.py ,以默認端口即可連接正在運行中的 API 服務進程:
- $ python pyconsole.py
- Python 3.8.5 (default, Aug 5 2020, 18:49:57)
- [GCC 5.4.0 20160609] on linux
- Type "help", "copyright", "credits" or "license" for more information.
- (ConsoleClient)
- >>>
pyconsole 用法跟 Python 交互式終端一樣,但代碼執行環境是在被連接的服務進程里面,因此可以看到服務內部的實時狀態。我們先通過 dir 內建函數看看遠程終端的名字空間都有些啥:
- >>> dir()
- ['__builtins__', '__doc__', '__name__', 'main', 'sys']
- >>> main
- <module '__main__' from 'service.py'>
- >>> dir(main)
- ['Faker', 'FastAPI', '__annotations__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'app', 'cache', 'faker', 'fetch_user_from_database', 'get_user', 'retrieve_user', 'start_console_server', 'uvicorn']
main 就是服務的 main 模塊,從中還可以找到 service.py 導入的 Faker 、FastAPI 等,它定義的函數 retrieve_user 、get_user 等,還有作為全局變量存在的 cache 字典。甚至,我們還可以看到 cache 當前緩存了多少用戶信息:
- >>> len(main.cache)
- 2
由于我們前面通過 API 獲取了 2 條用戶數據,因此 cache 當前緩存了 2 條數據。當我們再次訪問接口獲取其他用戶數據時,我們會看到 cache 緩存的用戶數據會慢慢增加:
- >>> len(main.cache)
- 3
pyconsole 是一個很神奇的終端,能夠實時查看 Python 進程里面各種數據的狀態,在排查問題時非常方便!