AWS上海人工智能研究院推動研發的DGL圖神經網絡框架已在Amazon SageMaker上推出
近年來,深度學習席卷世界,各種原因是它具有從復雜數據(如自由格式的文本、圖像或視頻)中提取復雜模式的神奇能力。但是,許多數據集不符合這些類別,更適合用圖或者說網絡來表示。很自然的,我們能夠意識到傳統的神經網絡架構,如卷積神經網絡或循環神經網絡,并不適合這樣的數據集,需要一種新的方法。
圖神經網絡入門
圖神經網絡(GNN)是當今機器學習中最令人興奮的進展之一,以下參考論文有助于您開始學習。
GNN用于訓練如下數據集的預測模型:
• 社交網絡,用圖顯示相關人員之間的聯系,
• 推薦系統,用圖顯示客戶和條目之間的交互,
• 化學分析,化合物被表示為原子和鍵圖,
• 網絡安全,用圖描述源和目標 IP 地址之間的連接,
• 還有更多!
大多數時候,這些數據集非常大,有標記的只有一小部分。例如在欺詐檢測場景中,我們分析某些用戶與已知欺詐者的關系,預測他們是否是欺詐參與者的可能性。這一問題可以定義為半監督的學習任務,也即只對其中一小部分圖節點進行標記(’欺詐者’或’合法’)。這樣的解決方案,勝過構建手工標記的大型數據集、對它進行"線性化"以便使用傳統的機器學習算法。
解決這些問題需要領域知識(例如零售、金融、化學等)、計算機科學知識(Python、深度學習、開源工具)和基礎架構知識(訓練、部署和模型擴展)。然而很少有人掌握所有這些技能,所以就需要DGL圖神經框架和Amazon SageMaker這樣的工具。
DGL圖神經框架介紹
DGL圖神經框架于 2018 年 12 月在Github上發布,它是一個開源的Python框架,可幫助研究人員、數據科學家和科學家在其數據集上快速構建、訓練和評估圖神經網絡。
DGL 建立在流行的深度學習框架(如 PyTorch 和 Apache MXNet)之上。如果您知道其中一個或兩個,你會發現得心應手。我們沒有忘記TensorFlow的粉絲:DGL 的下一個小版本將增加對 TensorFlow的初步支持,預計下一個大版本將完全支持。
無論使用哪個框架,您都可以借助這些適合初學者的示例輕松入門。我還發現 GTC 2019 研討會的幻燈片和代碼非常有用。
完成簡單示例之后,您可以開始探索在DGL中已經實現的一系列前沿模型。例如,您可以使用圖形卷積網絡(GCN)和CORA數據集,訓練文檔分類模型:
- $ python3 train.py --dataset cora --gpu 0 --self-loop
所有模型的代碼都可以檢查和調整。AWS團隊對這些實現方法進行了仔細驗證,驗證了其性能,確保可以重現結果。
DGL 還包括一系列圖數據集,您可以輕松地下載和試驗這些數據集。
當然,您可以在本地安裝和運行DGL,但為了讓用戶有更簡單、流暢的體驗,我們將其添加到PyTorch 和 Apache MXNet深度學習容器中,這使得在Amazon SageMaker上使用DGL更方便,便于規模化訓練和部署模型,無需管理單個服務器。
藥明康德 (WuXi AppTec) 是一家全球性的制藥和醫療器械服務公司。開發一款新藥是一個復雜、昂貴、漫長的過程,通常要花費26億美元,平均需要12年。為了加快這一過程,藥明康德的計算機輔助藥物設計(CADD)團隊一直在探索神經網絡模型,以預測候選藥物分子的藥物特性。使用傳統的方法,科學家們要花幾個星期甚至幾個月的時間來構建和驗證模型、設置應用模型所需的計算資源。DGL和Amazon SageMaker為科學家提供了快速部署藥物特性預測模型的解決方案,將建模時間縮短了5倍,從而加快了藥物開發過程。
Bio-Techne是一家全球性的生命科學和診斷公司,為世界各地的研究人員和臨床醫生提供服務。公司的產品有超過 50萬種,包括高質量的試劑、儀器、臨床控制,以及組織和液體活檢診斷測試等。以高效而有意義的方式向其廣泛的客戶組織和推薦產品,變得至關重要。Bio-Techne數據實驗室正在與 AWS 協作,積極測試圖神經網絡(GNN)的使用,以改進其當前的推薦算法。DGL 通過簡單易用的API ,簡化了實現,將開發時間從幾個月縮短到數周。BioTechne的評估結果表明,使用 DGL 實現的、基于GNN的推薦模型得出的Top 10推薦,其精度比非GNN模型提高了70%。Bio-Techne將繼續優化這些模型、正式使用 DGL和Amazon SageMaker部署推薦算法。
DGL的研發由 2018年底成立的AWS上海人工智能研究院推動,與美國帕洛阿爾托的MXNet科學團隊密切協作完成。