你的想象力限制了 Python 能力,自動化識別函數調用關系,還能可視化
前言
我喜歡用 python 做一些臨時性數據工作,簡單情況下,直接一把梭寫到底。比如簡單的多文件合并數據:
定義函數?一輩子都不可能。
不過,稍微復雜一些的情況,比如下面是 tableau prep 數據任務挑戰中一道簡單題目——尋找可能具有欺詐性的交易。
代碼畫風突變成這樣子:
不讓我定義函數?想要我命了吧!
得益于 pandas 的管道功能,我們可以更容易管理復雜的數據任務代碼。關于如何以正確的思路使用 pandas 管道(pipe) ,具體可以查看我的 pandas 專欄。
數據處理是一種"重流程"的編程。但是,你會發現,上面的代碼不管如何劃分,你也無法容易理清楚數據流程。這才是痛點。
那如果有一種工具,可以把函數調用關系,以可視化方式展示給你,并且你可以輕松查看每一步處理結果的數據,還能直接跳轉到具體代碼行?看看演示:
- 自動生成函數調用圖。流程圖可以縮放,拖動平移
- 點擊每個節點,下方出現函數處理結果的表數據。還可以通過勾選,快速篩選數據
當然,如果不能快速定位到代碼,那就沒有意思。
工具使用 nicegui 制作。
pandas 專欄馬上開始最后關于工程化的階段,本節介紹的可視化工具就是為了專欄而制作。工程化的章節內容,將會是大量 tableau prep 數據處理挑戰任務實戰。
要做到這樣的可視化,必需找到一種方式,可以在 python 中,自動化識別函數調用關系。
今天,我們探討一下,如何做到這一切。重點是分享里面涉及到的 python 知識。
目前我想到3種實現方式,本文講解其中一種。
驗證想法
要設計一個新的功能,我們需要從最簡單的問題開始,驗證想法是否能行。假設兩個簡單的函數
- 在函數 b 中,調用了 函數 a
現在我們需要的是,得到一個記錄信息,能反映出,函數 b 中,使用了函數 a。
python 中可以做到嗎?
這涉及 python 中一個概念——閉包。直觀來說,閉包就是一個函數中,直接使用了外部定義的變量。就像上面例子中,函數 b 中并沒有定義變量 a,那么代碼中使用的變量 a ,就是外部定義的函數 a。
我們可以使用 inspect 模塊的 getclosurevars 獲取閉包變量。
- 注意, 我們沒有執行函數 b
- 得到的是一個 ClosureVars 對象。其中有一個 globals 屬性,可以獲取函數中全局閉包變量映射表(字典)
注意字典的 value 是函數對象。有了函數對象,我們就可以獲取它的一切信息。比如函數定義在哪個文件的哪一行,有什么參數等等。
現在,可以把功能封裝起來,看起來像這樣子:
- 行37:我們只關注函數之間的調用,所以這里做了過濾
這樣子調用:
準確控制
但是,現在是通過我們手工傳入函數 b ,這樣子太麻煩了。在實際使用中,我們希望直接調用一個函數,就能自動檢測當前環境所有的全局變量,并找出調用關系。
有小伙伴可能會想到,可以用 globals 函數獲取所有的全局變量字典。但是不適合我們的情況。因為我們的功能函數是單獨定義在一個模塊文件中。
如果在我們定義的函數中使用 globals,只會獲取到當前模塊的全局變量。
此時仍然可以使用 inspect 模塊的 currentframe 獲取當前調用幀棧,從而獲取上一層幀棧:
這里的意思就是:"誰調用我,我就拿了誰的全局變量"。
剩下就非常簡單,遍歷這個字典,篩選出函數對象,然后調用之前定義的 get_func_relationships :
- 行81:得到的是一個 列表中的列表
- 行80:使用 itertools 模塊的 chain 給展開成一層列表
這里還存在一些問題,我們希望它不要什么函數都獲取,由使用者為需要檢測關系的函數打上標記。比如:
只有打上 @check 裝飾器的函數,才需要獲取調用關系。
只需要創建一個類即可:
裝飾器知識點以前就有講解。
我們需要把之前的功能函數中的目標類型判斷修改為 TargetFn :
一切就緒:
- 行1:使用時,先導入
- 行8:需要檢測的函數,打上裝飾器
- 行40:只需要在最后調用 build_all_relationships 即可
有了關系信息,做功能界面就沒有太大難度了。