如何快速分析軟件運行瓶頸在哪里?推薦Linux下的一個強大命令工具
Linux被廣泛用于服務器系統,很多線上服務在上線前要做壓力測試,對發現的性能問題要進一步排查和開發優化性能。
比如通過 top 、iostat 等命令找到了引起資源異常的進程后,就要進一步對該進程/線程的內存占用、文件系統IO系統調用次數、Socket和網絡通訊阻塞問題等做跟蹤分析。由于此時往往更希望接近真實場景的運行方式,所以除了采用代碼斷點調試的方式外,最保真、最快速跟蹤到實際環境問題根源的就是用Linux系統自帶的strace軟件啟動問題軟件,獲得直接的數據實現,故障分析、性能分析。
這是一款Linux下瑞士軍刀級別的工具,開發者、運維人員如果不熟悉,那么非常有必要繼續往下看。學會后可以事半功倍地解決工作中遇到的各類軟件開發和軟件運維問題。
統計異常系統調用耗時、系統調用次數過多的情況:使用strace跟蹤vs code 這個代碼編輯器的運行(軟件文件路徑為 /usr/bin/code )為例:
sudo strace -o strace.log -T -S time -k -O1ns -C -v /usr/bin/code --no-sandbox --user-data-dir /root/data
除了輸出啟動過程從哪些目錄,加載了什么動態庫,用到了什么系統調用(系統接口函數),函數調用返回值,入參值等都有打印。由于上面參數中使用了-C也就是要求打印匯總報告,所以在最后會列出vs code啟動過程中涉及到多少系統調用、每個系統調用的時間百分比、時間總計、調用次數、錯誤次數、系統調用的函數名。
并在最后一行列出匯總值。
假如我們的業務代碼中有個功能存在bug,過多調用了系統調用(次數維度),或者傳入的參數不科學導致系統調用執行時間過長(時間維度),那么,通過strace 的報告我們可以馬上觀察到線索。再翻看 strace 的 -o strace.log 逐個系統調用跟蹤的日志記錄文件,就可以具體排查以下多方面:
- 加載的動態庫是否正確
- 運行時的環境變量是否正確
- 調用的系統調用接口是否符合業務代碼邏輯順序
- 系統調用入參、返回值是否符合預期
- 系統調用發生的次數是否正常
- 每個系統調用的持續時間是否合理
- 打開的文件是否正常?是否使用了缺失的路徑?
最后總結下:
sudo strace -o strace.log -T -S time -k -O1ns -C -v /usr/bin/code --no-sandbox --user-data-dir /root/data
這個示例命令中參數的意思:
- -o strace.log 將跟蹤記錄保存到文件 strace.log
- -T 統計時間
- -S 按時間排序
- -k 打印調用棧
- -O1ns 以1納秒為單位統計時間(實際由于CPU和系統支持程度的差別,可能無法統計到納秒精度)
- -v 盡量詳細輸出信息
- /usr/bin/code --no-sandbox --user-data-dir /root/data 為vscode 的root用戶模式啟動命令+參數