八個數據集全面勝出!思維鏈推理刷新圖學習表現上限
圖神經網絡還能更聰明?思維鏈提示學習來了!
由于圖數據擁有復雜的非線性結構和缺少文本信息,語言模型中的思維鏈(Chain-of-Thought,CoT)提示學習方法難以簡單直接地應用于圖數據。
基于此,來自新加坡管理大學和中國科學技術大學的研究者們提出了GCoT——首個應用于無文本圖數據的類思維鏈提示學習框架。
實驗結果表明,GCoT在八個圖數據集上的少樣本節點分類與圖分類任務全面超越現有SOTA方法,尤其在1-5樣本的極少樣本設置下表現最為顯著。
GCoT方法解析
GCoT的核心思想是將下游的推斷過程拆分為多個推斷步驟。具體包含:
- 將圖和提示一并輸入到預訓練圖編碼器中進行推斷;
- 通過聚合各層隱藏表示來生成“思維”,以學習當前步驟每個節點的表示;
- 基于該思維學習節點專屬提示,引導下一步的推斷。
研究者們在八個公開數據集上進行了全面實驗以評估和分析GCoT。
整體框架
研究者們將思維鏈提示學習分為三個部分:
1.基于提示的推斷
第步推斷中,研究者將查詢圖及其使用提示作用后的特征矩陣輸入預訓練圖編碼器以得到各層嵌入表示。
2.思維構建
為有效利用多層結構信息,研究人員將每一層的嵌入表示做加權求和得到融合后的“思維”。
3.基于思維的提示學習Thought conditioned prompt learning
研究人員設計的“思維” 捕獲了圖中節點的結構知識并用于指導下一步推斷。由于每個節點可能具有不同的特質,他們設計了一個條件網絡(Condition Net),將上一輪思維作為輸入,生成節點的專屬性提示矩陣,并將其用于下一步輸入特征調整。
標準提示學習
同時研究人員也采用了標準圖提示學習方法來進一步對齊上下游任務。參考GPF+,他們訓練得到了個偏置項提示并通過注意力機制融合提示向量。
與GPF+方法不同的是,他們將融合得到的提示作用于最終輸出的嵌入表示而不是最初始的特征矩陣上。
提示的微調
針對下游任務研究人員設計了損失以便微調模型學習的提示:
其中,是最終提示后的節點或圖的嵌入,是類別的原型向量(所有標簽樣本嵌入的平均),是溫度系數。
實驗結果
研究者們在八個基準數據集上進行了全面的實驗,評估他們所提出的GCoT在少樣本節點分類和圖分類任務上的有效性。
少樣本學習表現
1-shot節點與整圖分類
通過上表研究者們得到以下結論:
- GCoT在節點分類以及圖分類任務中都超越了其他的基準,展現了其性能的優勢和魯棒性。
- 預訓練方法通常優于有監督學習方法,因為前者組利用了預訓練模型。這些結果突顯了從無標簽圖中獲得通用知識的重要性。
- 圖提示學習模型(GPF/GPF+,ProG,GraphPrompt)通常優于基于微調的預訓練方法,這源于這些模型通過提示縮小了預訓練與下游任務的區別。但是這一些模型都是單步提示,因此表現劣于多步思考提示的GCoT模型。
k-shot節點與整圖分類
研究者們進一步進行了下游1-10樣本數目的實驗,具體結果呈現在上圖中,他們發現GCoT幾乎在所有少樣本分類任務中都超越了其他基準,尤其是在1-5少樣本數目中。
消融實驗
為全面了解GCoT模型中各層的作用,研究者們進一步設計了兩項消融實驗:
- 逐層研究GCoT各個部分的單獨作用
- 研究CoT作用于其它基準模型上的影響
首先他們對GCoT的四種變體做了對比實驗。毫無疑問,完整的GCoT依然是最優,去除了所有推斷的GCoT\CoT結果凸顯了分步推斷機制的重要性,使用了單步推斷的GCoT\L1,L2,L3則驗證了多步推斷融合各層級的信息的有效性。
其次研究者們將CoT設計加入圖提示學習的其它基準模型中(GPF,GPF+,ProG,GraphPrompt),并再次研究這些模型的性能,結果呈現在上表中。
他們觀察到對于所有的模型加入了CoT后效果都有提升,這進一步表明了他們設計的GCoT可以廣泛適用于各種圖提示學習模型,并在節點分類與圖分類上有通用性。
總結
本文中研究者提出的GCoT是首次將思維鏈提示學習框架擴展到無文本圖數據上的嘗試,具體而言他們做了如下設計:
逐步推斷機制通過逐步推斷將思維鏈提示學習引入圖學習中,每步推斷包含“基于提示的推斷”、“思維構建”以及“基于思維的提示學習”過程。
融合生成思維提示首先將經過提示修改的查詢圖輸入預訓練圖編碼器,隨后通過融合編碼器所有層的隱藏嵌入來構建思維向量,以捕獲層次化結構知識。
節點特定提示基于每步思維生成的提示向量,生成一系列節點特定提示來引導下一步推斷。
他們在八個圖數據集上進行了廣泛實驗,涵蓋節點分類與圖分類兩類任務,結果表明GCoT在少樣本學習中相較現有SOTA方法具有顯著優勢。
作為一種面向無文本圖的嘗試性框架,GCoT在一定程度上拓展了現有圖學習方法的推理方式,也為后續相關研究提供了新的思路。