清華朱文武團隊:開源世界首個輕量圖自動機器學習庫AutoGL-light
清華大學朱文武教授團隊自 2020 年發布智圖庫(AutoGL)以來,在圖自動機器學習的可解釋性和可泛化能力等方面取得新進展,特別關注于圖 Transformer、圖分布外泛化(OOD)、圖自監督學習等方面,發表圖神經架構搜索評測基準,并在中國新一代開源創新服務平臺 GitLink 上發布首個輕量智圖庫(AutoGL-light)。
智圖庫回顧
圖(graph)是描述數據間關系的一般抽象,廣泛存在于不同的研究領域中并有許多重要應用,例如社交網絡分析、推薦系統、交通預測等互聯網應用,新藥物發現、新材料制備等科學應用(AI for Science),覆蓋諸多不同領域。圖機器學習在近年來取得了廣泛關注。由于不同圖數據在結構、性質和任務上千差萬別,現有人工設計的圖機器學習模型缺乏對不同場景與環境變化的泛化能力。圖自動機器學習(AutoML on Graphs)是圖機器學習發展的前沿,旨在針對給定的數據和任務,自動化地設計最優的圖機器學習模型,在研究與應用上都有著極大的價值。
針對圖自動機器學習問題,清華大學朱文武教授團隊從 2017 年開始布局,并在 2020 年發布了智圖庫(AutoGL)—— 世界首個針對圖自動機器學習的平臺和工具包。
項目地址:https://github.com/THUMNLab/AutoGL
智圖庫已在 GitHub 獲得了超千個星標,吸引了超過 20 個國家和地區數萬次訪問,并在 GitLink 上進行了發布。智圖庫包括一套完整的圖自動機器學習流程,涵蓋了主流的圖自動機器學習方法。智圖庫通過圖自動機器學習解決方案 AutoGL Solver,將圖上的自動機器學習拆分為五個核心部分:圖自動特征工程、圖神經架構搜索(NAS)、圖超參數優化(HPO)、圖模型訓練,以及圖模型自動集成。智圖庫已經支持節點分類、異構圖節點分類、鏈接預測、圖分類等多種類型的圖任務。
圖自動機器學習研究新進展
針對目前圖自動機器學習缺乏可解釋性和可泛化能力等問題,智圖團隊在圖自動機器學習研究取得了一系列新進展。
1. 圖分布外泛化(OOD)架構搜索
針對圖神經架構搜索無法處理圖數據分布變化問題,提出了基于解耦自監督學習的圖神經架構搜索方法,通過為每個圖樣本定制合適的圖神經網絡架構,有效增強了圖神經架構搜索方法處理數據分布偏移的適應能力。該工作已發表于機器學習頂級國際會議 ICML 2022。
論文地址:https://proceedings.mlr.press/v162/qin22b/qin22b.pdf
2.大規模圖架構搜索
針對現有圖神經架構搜索無法處理大規模圖問題,提出了基于架構 - 子圖聯合采樣機制的超網絡訓練方法,通過重要性采樣和同輩學習(peer learning)算法,突破了采樣過程中的一致性瓶頸,極大程度提升了圖神經架構搜索的效率,首次實現了單機可處理億規模真實圖數據。該工作已發表于機器學習頂級國際會議 ICML 2022。
論文地址:https://proceedings.mlr.press/v162/guan22d.html
3. 圖神經架構搜索評測基準
針對圖神經架構搜索缺乏統一的評測標準,以及評測過程消耗的計算資源量巨大問題,智圖團隊研究并提出了圖神經架構搜索基準 NAS-Bench-Graph,首個針對圖神經架構搜索的表格式基準。該基準可以高效、公平、可復現地比較不同圖神經架構搜索方法,填補了針對圖數據架構搜索沒有基準的空白。NAS-Bench-Graph 設計了一個包含 26,206 種不同圖神經網絡架構的搜索空間,采用了 9 個常用的不同大小、不同類型的節點分類圖數據,并提供了已經完全訓練好的模型效果,可以在保證可復現性與公平比較的同時,極大地減少計算資源。該工作已發表于機器學習頂級國際會議 NeurIPS 2022。
項目地址:https://github.com/THUMNLab/NAS-Bench-Graph
4. 自動圖 Transformer
針對目前人工設計的圖 Transformer 架構難以取得最佳預測性能問題,提出了自動圖 Transformer 架構搜索框架,通過統一的圖 Transformer 搜索空間與結構感知的性能評估策略,解決了設計最佳圖 Transformer 耗時長,難以得到最優架構的難題,該工作發表于機器學習頂級國際會議 ICLR 2023。
論文地址:https://openreview.net/pdf?id=GcM7qfl5zY
5. 魯棒圖神經架構搜索
針對目前圖神經架構搜索無法處理對抗打擊問題,提出了魯棒圖神經架構搜索方法,通過在搜索空間中增加魯棒性圖算子并在搜索過程中提出了魯棒性評價指標,增強了圖神經架構搜索抵御對抗打擊的能力。該工作已發表于模式識別頂級國際會議 CVPR 2023。
論文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Xie_Adversarially_Robust_Neural_Architecture_Search_for_Graph_Neural_Networks_CVPR_2023_paper.pdf
6. 自監督圖神經架構搜索
現有圖神經架構搜索嚴重依賴于標簽作為訓練和搜索架構的指標,限制了圖自動機器學習在標簽匱乏場景的應用。針對該問題,智圖團隊提出了自監督圖神經架構搜索方法,發現了驅動圖數據形成的圖因子與最優神經架構之間潛在的關系,采用了一種新穎的解耦自監督圖神經架構搜索模型,實現了有效在無標簽圖數據上搜索最優架構。該工作已被機器學習頂級會議 NeurIPS 2023 接收。
7. 多任務圖神經架構搜索
針對現有圖神經架構搜索無法考慮不同任務對架構需求的差異性問題,智圖團隊提出了首個多任務圖神經網絡架構搜索方法,通過同時為不同圖任務設計最優架構并采用課程學習捕捉不同任務之間的協作關系,有效實現了不同圖任務定制最優架構。該工作已被機器學習頂級會議 NeurIPS 2023 接收。
輕量智圖庫
基于上述研究進展,智圖團隊在 CCF 指定開源平臺 GitLink 發布了輕量智圖(AutoGL-light),世界首個輕量圖自動機器學習開源庫。其整體架構圖如圖 1 所示。輕量智圖主要具有以下特點:
圖 1. 輕量智圖框架圖
項目地址:https://gitlink.org.cn/THUMNLab/AutoGL-light
1. 模塊解耦
輕量智圖通過更全面的模塊解耦方式,實現了對不同圖自動機器學習流水線更便捷的支持,允許在機器學習流程的任何步驟中自由加入模塊,滿足用戶定制化需求。
2. 自主定制能力
輕量智圖庫支持用戶自主定制化圖超參數優化(HPO)和圖神經架構搜索(NAS)。在圖超參數優化模塊中,輕量智圖提供了多種超參數優化算法和搜索空間,并支持用戶通過繼承基類來創建自己的搜索空間。在圖神經架構搜索模塊中,輕量智圖實現了典型和最先進的搜索算法,且用戶能夠根據自己的需求自主輕松組合和定制搜索空間、搜索策略和評估策略的模塊設計。
3. 廣泛的應用領域
輕量智圖的應用不僅僅局限于傳統的圖機器學習任務,而是進一步擴展到了更廣泛的應用領域。目前,輕量智圖已經支持了分子圖、單細胞組學數據等 AI for Science 應用。在未來,輕量智圖希望可以為不同領域圖數據提供最先進的圖自動機器學習解決方案。
4. GitLink 編程夏令營
以輕量智圖為契機,智圖團隊深度參與了 GitLink 編程夏令營(GLCC),其是在 CCF 中國計算機學會指導下,由 CCF 開源發展委員會(CCF ODC)舉辦的面向全國高校學生的暑期編程活動。智圖團隊的兩個項目 “GraphNAS 算法復現” 和 “圖自動學習科學領域應用案例” 吸引了國內十余所高校的本科生和研究生報名。
夏令營舉辦過程中,智圖團隊與參與同學積極溝通,工作進展程度超出預期。其中,GraphNAS 算法復現項目在輕量智圖中成功實現了上述介紹的圖分布外泛化架構搜索(ICML’22)、大規模圖架構搜索(ICML’22)、自動圖 Transformer (ICLR’23),有效驗證了輕量智圖庫的靈活性與自主定制能力。
圖自動機器學習科學領域應用項目則在輕量智圖實現了基于圖的生物信息處理算法,包括用于單細胞 RNA 測序分析的代表性算法 scGNN、用于分子表征學習的代表性算法 MolCLR,以及用于分子結構預測的代表性算法 AutoGNNUQ,推動了圖自動機器學習技術在 AI for Science 的應用。在 GitLink 編程夏令營中,輕量智圖既豐富了算法和應用案例,也使參與的同學鍛煉了開源軟件開發等技能,在圖自動機器學習方面培養人才,并為助力我國開源生態建設的發展貢獻了自己的力量。
智圖團隊來自清華大學計算機系朱文武教授領導的網絡與媒體實驗室,核心成員包括助理教授王鑫、博士后張子威、博士生李昊陽、秦一鑒、張澤陽,碩士生關超宇等十余人。項目得到了國家自然科學基金委和科技部的大力支持。