成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

港大開源圖基礎大模型OpenGraph: 強泛化能力,前向傳播預測全新數據

發布于 2024-5-9 09:25
瀏覽
0收藏

圖學習領域的數據饑荒問題,又有能緩解的新花活了!


OpenGraph,一個基于圖的基礎模型,專門用于在多種圖數據集上進行零樣本預測。


背后是港大數據智能實驗室的主任Chao Huang團隊,他們還針對圖模型提出了提示調整技術,以提高模型對新任務的適應性。


目前,這項工作已經掛上了GitHub。


據介紹,這項工作主要深入探討增強圖模型泛化能力的策略(特別是在訓練和測試數據存在顯著差異時)。


而OpenGraph旨在通過學習通用的圖結構模式,并僅通過前向傳播進行預測,實現對全新數據的零樣本預測。

港大開源圖基礎大模型OpenGraph: 強泛化能力,前向傳播預測全新數據-AI.x社區

為了實現目標,團隊解決了以下3點挑戰:

  • 數據集間的token差異:不同圖數據集常有不同的圖token集,我們需要模型能夠跨數據集進行預測。
  • 節點關系建模:在構建通用圖模型時,有效地建模節點關系至關重要,這關系到模型的擴展性和效率。
  • 數據稀缺:面對數據獲取的難題,我們通過大型語言模型進行數據增強,以模擬復雜的圖結構關系,提升模型訓練質量。


通過一系列創新方法,如拓撲感知的圖Tokenizer和基于錨點的圖Transformer,OpenGraph有效應對上述挑戰,在多個數據集上的測試結果證明了模型的出色泛化能力。

OpenGraph模型

OpenGraph模型架構主要由3個核心部分組成:


1)統一圖Tokenizer;
2)可擴展的圖Transformer;
3)基于大語言模型的知識蒸餾技術。


首先來說說統一圖Tokenizer


為了適應不同數據集的節點和邊的差異,團隊開發了統一圖Tokenizer,它將圖數據標準化為token序列。


這一過程包括高階鄰接矩陣平滑化和拓撲感知映射。


高階鄰接矩陣平滑化即利用鄰接矩陣的高階冪來解決連接稀疏的問題,而拓撲感知映射則是將鄰接矩陣轉換為節點序列,并使用快速奇異值分解(SVD)最小化信息損失,保留更多的圖結構信息。


其次是可擴展的圖Transformer

在token化后,OpenGraph使用Transformer架構模擬節點間的依賴,主要采用以下技術優化模型性能和效率:


一來是token序列采樣,通過采樣技術減少模型需要處理的關系數量,從而降低訓練的時間和空間復雜度。


二來是錨點采樣的自注意力機制。此方法進一步降低計算復雜度,通過分階段學習節點間的信息傳遞,有效提高模型的訓練效率和穩定性。


最后是大語言模型知識蒸餾


為了應對培訓通用圖模型時面臨的數據隱私和種類多樣性問題,團隊從大語言模型(LLM)的知識和理解能力中獲得靈感,使用LLM生成各種圖結構數據


這一數據增強機制通過模擬真實世界圖的特征,有效提升了數據的質量和實用性。


團隊還首先生成適應特定應用的節點集,每個節點擁有文本描述以便生成邊。


在面對如電子商務平臺這種大規模節點集時,研究人員通過將節點細分為更具體的子類別來處理。


例如,從“電子產品”細化到具體的“移動電話”“筆記本電腦”等,此過程反復進行,直到節點精細到接近真實實例。


提示樹算法則按樹狀結構將節點細分,并生成更細致的實體。


從一般的類別如“產品”開始,逐步細化到具體的子類別,最終形成節點樹。


至于邊的生成,利用吉布斯采樣,研究人員基于已生成的節點集來形成邊。


為了減少計算負擔,我們不直接通過LLM遍歷所有可能的邊,而是先利用LLM計算節點間的文本相似度,再通過簡單的算法判斷節點關系。


在此基礎上,團隊引入了幾種技術調整:

  • 動態概率標準化:通過動態調整,將相似度映射到更適合采樣的概率范圍內。
  • 節點局部性:引入局部性概念,只在節點的局部子集間建立連接,模擬現實世界中的網絡局部性。
  • 圖拓撲模式注入:使用圖卷積網絡修正節點表示,以更好地適應圖結構特征,減少分布偏差。

以上步驟確保了生成的圖數據不僅豐富多樣,而且貼近現實世界的連接模式和結構特性。

實驗驗證與性能分析

需要注意,該實驗專注于使用僅由LLM生成的數據集訓練OpenGraph模型,并在多樣化的真實場景數據集上進行測試,涵蓋節點分類和鏈接預測任務。


實驗設計如下:


零樣本設置


為了評估OpenGraph在未見過的數據上的表現,我們在生成的訓練集上訓練模型,然后在完全不同的真實測試集上進行評估。確保了訓練和測試數據在節點、邊和特征上均無重合。


少樣本設置


考慮到許多方法難以有效執行零樣本預測,我們引入少樣本設置,基線模型在預訓練數據上預訓練后,采用k-shot樣本進行微調。


在2個任務和8個測試集上的結果顯示,OpenGraph在零樣本預測中顯著優于現有方法。

此外,現有預訓練模型在跨數據集任務中的表現有時不如從頭訓練的模型。

圖Tokenizer設計影響研究

同時,團隊探索了圖Tokenizer設計如何影響模型性能。


首先,通過實驗發現,不進行鄰接矩陣平滑(平滑階數為0)會顯著降低性能,說明平滑處理的必要性。


然后,研究人員嘗試了幾種簡單的拓撲感知替代方案:跨數據集的獨熱編碼ID、隨機映射和基于節點度數的表示。


實驗結果顯示,這些替代方案性能均不理想


具體來說,跨數據集的ID表示效果最差,基于度數的表示也表現不佳,而隨機映射雖稍好,但與優化的拓撲感知映射相比,性能差距明顯。

港大開源圖基礎大模型OpenGraph: 強泛化能力,前向傳播預測全新數據-AI.x社區

數據生成技術的影響

團隊調查了不同預訓練數據集對OpenGraph性能的影響,包括使用基于LLM的知識蒸餾方法生成的數據集,以及幾個真實數據集。


實驗中比較的預訓練數據集包括從團隊生成方法中移除某項技術后的數據集、2個與測試數據集無關的真實數據集(Yelp2018和Gowalla)、1個與測試數據集類似的真實數據集(ML-10M)。


實驗結果顯示,生成數據集在所有測試集上均展示了良好性能;三種生成技術的移除都顯著影響了性能,驗證了這些技術的有效性。


使用與測試集無關的真實數據集(如Yelp和Gowalla)訓練時,性能有時候會下降,這可能是由于不同數據集之間的分布差異。


ML-10M數據集在與之類似的測試數據集(如ML-1M和ML-10M)上取得了最佳性能,突顯了訓練和測試數據集相似性的重要性。

港大開源圖基礎大模型OpenGraph: 強泛化能力,前向傳播預測全新數據-AI.x社區

Transformer采樣技術的研究

在這部分實驗中,研究團隊探討了圖Transformer模塊中使用的兩種采樣技術:


token序列采樣(Seq)和錨點采樣(Anc)。


他們對這兩種采樣方法進行了詳細的消融實驗,以評估它們對模型性能的具體影響。

港大開源圖基礎大模型OpenGraph: 強泛化能力,前向傳播預測全新數據-AI.x社區

實驗結果表明,無論是token序列采樣還是錨點采樣,兩者都能在訓練和測試階段有效地減少模型的空間和時間復雜度。這對于處理大規模圖數據尤為重要,可以顯著提高效率。


從性能的角度分析,token序列采樣對模型的整體性能產生了正面影響。這種采樣策略通過選取關鍵的token來優化圖的表示,從而提高了模型處理復雜圖結構的能力。


相比之下,在ddi數據集上的實驗顯示,錨點采樣可能對模型性能產生負面影響。錨點采樣通過選擇特定的節點作為錨點來簡化圖結構,但這種方法可能會忽略一些關鍵的圖結構信息,從而影響模型的準確性。


綜上所述,雖然這兩種采樣技術都有其優勢,但在實際應用中需要根據具體的數據集和任務需求仔細選擇合適的采樣策略。

研究結論

本研究旨在開發一個高適應性框架,該框架能夠精確地識別和解析各種圖結構的復雜拓撲模式。


研究人員的目標是通過充分發揮所提出模型的能力,顯著增強模型在零樣本圖學習任務中的泛化能力,包括多種下游應用。


模型是在可擴展的圖Transformer架構和LLM增強的數據增強機制的支持下構建的,以提升OpenGraph的效率和健壯性。


通過在多個標準數據集上進行的廣泛測試,團隊證明了模型的出色泛化性能。

港大開源圖基礎大模型OpenGraph: 強泛化能力,前向傳播預測全新數據-AI.x社區

據了解,作為對圖基礎模型構建的初步嘗試,未來,團隊工作將著重于增加框架的自動化能力,包括自動識別噪聲連接和進行反事實學習。


同時,團隊計劃學習和提取各種圖結構的通用且可遷移的模式,進一步推動模型的應用范圍和效果。


本文轉自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/Z6Ku0s4hRNggtx3S9Nv3TA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 成人高清在线 | 天堂在线中文字幕 | 一区二区三区四区不卡视频 | 亚洲日本欧美 | 一区二区三区视频在线观看 | av免费成人 | 亚洲欧美日韩中文字幕一区二区三区 | 欧美1区2区 | 午夜精品一区二区三区在线观看 | 亚洲精品久久久久久国产精华液 | 亚洲精品一区二区网址 | 99国产精品99久久久久久 | 最新黄色毛片 | 日本精品一区二区三区视频 | 中文字幕免费观看 | 国产精品久久 | av中文字幕在线 | 欧美精品一区二区在线观看 | 91在线精品秘密一区二区 | 欧美电影免费观看高清 | 国产精品福利在线 | 一区2区| 日韩在线| 午夜精品影院 | 亚洲一区二区三区免费在线观看 | 欧美中文字幕 | 天天干,夜夜操 | 自拍偷拍亚洲一区 | 99国产精品久久久久老师 | 不卡在线视频 | 亚洲欧美国产精品久久 | 影音先锋中文字幕在线观看 | 蜜桃av鲁一鲁一鲁一鲁 | 欧洲高清转码区一二区 | 国产一级毛片精品完整视频版 | 欧美日在线 | 日本久久网 | 精品成人69xx.xyz | 一区中文字幕 | 干出白浆视频 | 国产精品无码久久久久 |