實(shí)現(xiàn)圖深度學(xué)習(xí)復(fù)雜研究性質(zhì)任務(wù)太頭疼?這個新工具包幫你應(yīng)對
深度學(xué)習(xí)是目前AI領(lǐng)域最熱門的方向之一,目前PyG和DGL等主流圖深度學(xué)習(xí)框架大多是實(shí)現(xiàn)圖深度學(xué)習(xí)的基本操作與模型,很難應(yīng)對復(fù)雜圖深度學(xué)習(xí)研究任務(wù)。近日,來自德州農(nóng)工大學(xué)的姬水旺教授團(tuán)隊開發(fā)了首個面向復(fù)雜研究任務(wù)的可擴(kuò)展型圖深度學(xué)習(xí)工具包,包含圖生成,圖自監(jiān)督學(xué)習(xí),圖神經(jīng)網(wǎng)絡(luò)可解釋性以及3D圖深度學(xué)習(xí)任務(wù),旨在幫助研究者在復(fù)雜圖深度學(xué)習(xí)任務(wù)的算法開發(fā)上能夠輕松使用常用數(shù)據(jù)集和評估指標(biāo)與通用基準(zhǔn)進(jìn)行比較。
圖深度學(xué)習(xí)已經(jīng)展示了其在學(xué)習(xí)豐富的圖結(jié)構(gòu)數(shù)據(jù)上的有效性。并且在許多問題上取得了重大進(jìn)展, 例如藥物發(fā)現(xiàn)、社交網(wǎng)絡(luò)、物理仿真等。許多圖深度學(xué)習(xí)框架(如 PyG,DGL 等)主要關(guān)注實(shí)現(xiàn)基本的圖深度學(xué)習(xí)模塊和基礎(chǔ)任務(wù),比如節(jié)點(diǎn)分類與圖分類等。但對于復(fù)雜的任務(wù),比如圖生成和圖神經(jīng)網(wǎng)絡(luò)的可解釋性,研究人員仍然需要花費(fèi)巨大精力實(shí)現(xiàn)算法并與基準(zhǔn)模型進(jìn)行比較。
為了解決這一問題,德州農(nóng)工大學(xué)姬水旺教授領(lǐng)導(dǎo)的 DIVE(Data Integration, Visualization and Exploration)實(shí)驗室開源了首個面向復(fù)雜研究任務(wù)的圖深度學(xué)習(xí)工具包 DIG(Dive into Graphs)。該工具包由實(shí)驗室 16 人團(tuán)隊(14 個博士生,1 個本科生,1 個指導(dǎo)老師)歷時 1 年努力完成。與 PyG 和 DGL 等圖神經(jīng)網(wǎng)絡(luò)框架不同的是,DIG 聚焦于為目前熱門的復(fù)雜圖深度學(xué)習(xí)研究任務(wù)提供更易用、更快速并且可擴(kuò)展的算法開發(fā)與對比研究平臺。
目前,DIG 工具包支持 4 個研究方向:圖生成、圖自監(jiān)督學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)可解釋性以及 3D 圖深度學(xué)習(xí)。對于每個領(lǐng)域,DIG 都提供了通用、可擴(kuò)展的數(shù)據(jù)接口、常用算法與評估標(biāo)準(zhǔn)實(shí)現(xiàn)。
總之,DIG 極大地方便了研究人員的算法開發(fā)以及與基準(zhǔn)模型進(jìn)行實(shí)驗比較。
-
論文地址:https://arxiv.org/abs/2103.12608
-
項目地址:https://github.com/divelab/DIG
目前,DIG 涵蓋 4 個研究方向的 18 個算法、33 個數(shù)據(jù)集、7 類評估指標(biāo)。基于通用與可擴(kuò)展的實(shí)現(xiàn),未來可以將更多的方向和算法集成到 DIG 中。工具包整體結(jié)構(gòu)如下圖所示:
DIG 涵蓋的四大方向。
圖生成 :圖生成算法研究的是如何基于給定的一組圖數(shù)據(jù)生成新的圖。圖生成任務(wù)對于藥物和材料開發(fā)有潛在的重要作用。因此,DIG 主要考慮可以生成分子圖的深度學(xué)習(xí)算法。同時,DIG 中也實(shí)現(xiàn)了用以評估隨機(jī)生成、分子性質(zhì)優(yōu)化和有約束的分子性質(zhì)優(yōu)化的相關(guān)指標(biāo)。
圖自監(jiān)督學(xué)習(xí) :自監(jiān)督學(xué)習(xí)的研究最近已擴(kuò)展到圖數(shù)據(jù),利用特定的自監(jiān)督任務(wù)可以幫助模型獲得更有效的圖特征表示。目前 DIG 中主要實(shí)現(xiàn)了常見的基于對比學(xué)習(xí)的圖自監(jiān)督算法,提供了針對節(jié)點(diǎn)分類和圖分類的數(shù)據(jù)接口和評估指標(biāo)。
圖神經(jīng)網(wǎng)絡(luò)可解釋性 :由于圖神經(jīng)網(wǎng)絡(luò)已經(jīng)被越來越多地部署在真實(shí)世界的應(yīng)用中,為了更好地理解模型,對圖神經(jīng)網(wǎng)絡(luò)的可解釋性研究變得至關(guān)重要。DIG 中實(shí)現(xiàn)了常見的圖神經(jīng)網(wǎng)絡(luò)解釋算法。除了常用基準(zhǔn)數(shù)據(jù)集和評估指標(biāo)外,DIG 的開發(fā)人員還針對可解釋性任務(wù)從文本數(shù)據(jù)中構(gòu)建了易于人類理解的圖數(shù)據(jù)集,極大地方便了后續(xù)圖神經(jīng)網(wǎng)絡(luò)可解釋性的研究。
3D 圖深度學(xué)習(xí) :3D圖網(wǎng)絡(luò)是指節(jié)點(diǎn)具有三維位置信息的圖網(wǎng)絡(luò)結(jié)構(gòu)。例如分子中每個原子都有其相對的 3D 位置。考慮到圖結(jié)構(gòu)中 3D 位置信息對于提升圖網(wǎng)絡(luò)表達(dá)能力具有重要作用。DIG 中將三種最新 3D 圖深度學(xué)習(xí)算法整合為一個 3DGN 框架,提供了統(tǒng)一的實(shí)現(xiàn)。也實(shí)現(xiàn)了常見的 3D 分子數(shù)據(jù)集的統(tǒng)一接口和評估指標(biāo)。
關(guān)鍵設(shè)計準(zhǔn)則
通用實(shí)現(xiàn):DIG 對于每個研究方向的數(shù)據(jù)接口和評估方法都有通用的實(shí)現(xiàn)。這使得 DIG 能夠充當(dāng)標(biāo)準(zhǔn)化的測試平臺。另外,對于可以從一個角度統(tǒng)一的算法,DIG 也會提供通用的算法實(shí)現(xiàn)。比如針對 3D 圖深度學(xué)習(xí)的 3DGN 框架和針對圖自監(jiān)督學(xué)習(xí)的對比模型框架。
可擴(kuò)展性和可定制化:借助于通用的實(shí)現(xiàn),研究人員可以方便地集成新的數(shù)據(jù)集、算法與評估標(biāo)準(zhǔn)。而且用戶可以靈活地選取數(shù)據(jù)接口和評估方法來定制化實(shí)驗。因此 DIG 可以用作研究人員實(shí)現(xiàn)新的算法和與基準(zhǔn)算法進(jìn)行實(shí)驗比較的平臺。