圖模型也要大?清華朱文武團隊有這樣一些觀點
在大模型時代,圖機器學習面臨什么樣的機遇和挑戰?是否存在,并該如何發展圖的大模型?針對這一問題,清華大學朱文武教授團隊首次提出圖大模型(Large Graph Model)概念,系統總結并梳理了圖大模型相關的概念、挑戰和應用;進一步圍繞動態性和可解釋性,在動態圖大模型和解耦圖大模型方面取得了研究進展。
論文地址:https://arxiv.org/abs/2308.14522
一、相關概念
(一)圖大模型
圖大模型是指具有大量參數的圖機器學習模型,具有比小模型更強大的學習能力,能更好地對圖數據進行理解、分析和應用。為實現上述目標,圖大模型應該具有以下四方面的核心能力:
1. 圖學習模型的規模定律(graph models with scaling law):規模定律是首先在大語言模型(LLM)中發現的一種經驗現象,即模型性能隨著規模、數據集規模和訓練計算量的增加而持續提升。借鑒大語言模型的經驗,圖大模型應能夠展現出當前小規模或中等規模圖學習模型無法具備的新能力。
2. 圖基礎模型(graph foundation model):圖基礎模型是指一個經過預訓練的圖大模型能夠處理不同領域的圖數據和任務。這要求圖大模型能夠理解圖的內在結構和性能,以具備圖的 “常識知識”。圖預訓練范式可以讓模型接觸大量無標簽圖數據,從而減少對圖標簽的依賴,是發展圖基礎模型的重要途徑。此外,生成式預訓練可以賦予模型生成圖數據的能力,從而支持許多有重要價值的圖生成應用,例如藥物合成、代碼生成等。盡管如此,由于圖數據的通用性和多樣性,目前來看為所有領域的圖數據開發出一個 “通用圖模型” 是幾乎不可行的。因此,為不同簇的相關領域開發若干個圖基礎模型可能更加容易實現。
3. 圖上下文學習(in-context graph learning):圖大模型應具有理解圖上下文的能力,包括節點、邊、子圖和全圖等,并且在上述過程中無需進行過多的模型修改或學習范式改變。該能力與圖的少樣本 / 零樣本學習、多任務學習和圖的分布外泛化能力密切相關。上下文學習能力可以使圖大模型充分利用預訓練階段學習到的知識和能力,并在新數據測試中快速適應以達到預期性能。
4. 靈活的圖推理能力(versatile graph reasoning):雖然圖數據橫跨不同領域,但有一些基礎圖任務是共通的,我們稱其為 “圖推理”。目前哪些任務屬于圖推理并無嚴格的定義,下面介紹一些代表性的例子。首先,圖大模型應該理解基本的圖拓撲結構,如圖的大小、度數、節點連通性等,它們也是處理更復雜圖任務的基礎。其次,圖大模型應該能夠進行圖上的多跳推理,以考慮圖的高階信息。這種能力與大語言模型的思維鏈(Chain-of-Thought)異曲同工,可以增強圖任務相關決策過程中的可解釋性和模型透明性。除了局部信息,圖大模型還應具備理解和處理全局結構和更復雜圖模式相關圖任務的能力。
雖然圖大模型有許多值得期待的能力,但目前尚未出現如 ChatGPT 一樣成功的圖大模型。接下來,我們將從圖表征空間、圖數據、圖學習模型以及圖應用對圖大模型目前的研究進展和存在的瓶頸進行梳理。
(二)圖表征空間
大語言模型可以廣泛用于不同的下游任務,其背后一個重要原因在于自然語言中的單詞與詞元(token)屬于一種通用且信息無損的數據表征方式,可以用于不同任務。相比之下,圖是一種更加通用的數據結構,涵蓋了不同領域。因此,以原始圖數據作為輸入,例如節點和邊,并不總是最合適的數據表征方式。例如,在社交網絡、分子圖和知識圖譜中,節點和邊都具有不同的語義特征和拓撲空間,存在顯著差異性。
之前研究中普遍認為,更高層次的圖模式,可以在領域內不同的圖和任務之間進行知識遷移。例如,網絡科學中研究的同質性、小世界現象、節點度數的冪律分布等,均有更廣泛的適用性。即便如此,如何構建有效的、能夠在不同領域圖數據中遷移的圖大模型仍帶來巨大的挑戰。
此外,大語言模型另一個關鍵能力是能夠遵循指令并與人交互,因為人類天生具備理解語言和視覺的能力。相比而言,人在處理圖數據,尤其是復雜的推理問題方面,并不具備先天優勢。如何與圖大模型進行互動,使其可以按照期望的方式解決圖任務,同樣具有挑戰性。為解決該問題,下面總結了三種值得探索的策略。
第一種策略是通過大量的成對數據將圖和文本的表征空間進行對齊,這與目前大模型處理計算機視覺(如 DALLE 等)的方法原理類似。如果成功,我們也能夠使用自然語言與圖大模型進行交流,例如要求模型生成具有某些屬性的分子圖,或要求模型執行某些圖推理任務等。目前已經有對于文本屬性圖(text-attributed graph)的一些初步嘗試。然而,相比于圖像-文本對,收集更廣泛的圖-文本對數據成本更高,也更具挑戰性。
第二種策略是將圖轉化為自然語言,然后僅通過語言模型進行處理。最常見的流程是首先將圖結構轉化為文本表示(例如鄰接表或邊表),作為提示插入到大語言模型中,然后使用自然語言進行圖分析。該方向近期受到了一定關注,將在后文的圖模型中進行更詳細的討論。然而,將圖數據和任務轉化為語言時可能會丟失圖的內部結構,導致模型性能目前尚無法達到預期。
最后一種策略是通過其它表征空間作為圖任務和自然語言之間的橋梁。例如,盡管人類很難直觀地處理圖數據,但我們可以設計合適的算法來解決不同圖任務,例如圖論中許多著名的算法,包括最短路、動態規劃等。因此,如果可以將圖學習模型的運行狀態與算法對齊,就能在一定程度上理解和控制圖學習模型的運行狀態。這個方向上同樣有一些研究成果,被稱為算法推理(algorithmic reasoning),值得繼續探索。
總結來看,找到合適的圖表征空間并與自然語言對齊,同時統一不同領域的圖數據和圖任務,是構建圖大模型的一個基礎。
(三)圖數據
大模型的成功離不開大規模數據集的支撐。例如,GPT-3 在大約 5000 億個詞元的語料庫上進行了預訓練;多模態模型 CLIP 則在 4 億個圖像-文本對上進行了訓練。更近期的大模型,例如 GPT-4,使用了更多的數據。這些自然語言和計算機視覺的大數據通常來自互聯網,例如 CommonCrawl 中的網頁或社交媒體中用戶發布的照片,這些數據相對而言更易于規模化地收集。
相比之下,大規模圖數據并不容易獲取。圖通常面臨兩類場景:大量的小規模圖,如很多分子圖,或者少數大規模圖,如社交網絡或引用網絡。例如,OGB(Open Graph Benchmark)是圖機器學習中最具代表性的基準數據集之一,其中最大的兩個數據集,MAG240M 包含了一個大約有 2.4 億個節點和 13 億條邊的引用網絡,PCQM4M 則包含了大約 400 萬個分子。盡管 OGB 已經比之前常用的圖數據大了幾個數量級,但它的規模可能還是遠遠不夠。如果將 MAG240M 中的每個節點視為一個詞元或將 PCQM4M 中的每個圖視為一張圖片,那 OGB 仍比自然語言或計算機視覺中使用的數據集小至少 1000 倍。
除了預訓練所需的大規模無標注數據,帶標簽的基準數據集在大模型研制中同樣重要,例如用于自然語言的 SuperGLUE 和 BIG-bench,用于計算機視覺的 ImageNet 等。對于圖,上面介紹的 OGB 或其它圖機器學習基準,例如 Benchmarking GNN,它們的規模、任務和領域多樣性以及測評方式可能也不完全適合圖大模型。因此,圖大模型的研究應當包括設計更有針對性的基準測試數據。
(四)圖學習模型(graph model)
1. 神經網絡架構
圖神經網絡(GNN)與圖 Transformer 是兩類最主流的圖機器學習模型,可以從以下四個方面對兩類模型進行對比:
- 聚合 vs. 自注意力:GNN 采用消息傳遞機制聚合來自相鄰節點的信息,而圖 Transformer 則使用自注意力來決定相鄰節點的貢獻。
- 建模圖結構:GNN 會在消息傳遞過程中考慮圖結構作為模型的歸納偏置,而圖 Transformer 則采用結構編碼等預處理策略來建模結構。
- 深度與過平滑:深層 GNN 可能會受到過平滑的影響,導致其能力下降。圖 Transformer 一般則未觀察到類似問題。一種可能的解釋是,圖 Transformer 能自適應地關注更加相關的節點,從而有效地過濾信息。
- 可擴展性和效率:大多數 GNN 的基本操作相對簡單,因此計算上有優勢。相比之下,圖 Transformer 中節點對的自注意力機制會耗費更大量計算資源,尤其是對大規模圖數據。
2. 預訓練
在大規模無標注語料上進行預訓練早已成為大模型在自然語言處理和計算機視覺領域中成功不可或缺的因素。圖上的預訓練,或稱為圖自監督學習,同樣獲得了關注,發展出包括對比式(contrastive)與預測式(predictive)學習等多類方法,我們將其總結為圖上預處理的四 E 原則:
- 編碼(Encoding)圖結構:與文本和圖像數據預訓練方法更關注語義信息不同,圖包含豐富的結構信息。因此,預訓練圖大模型需要聯合考慮不同圖數據集上的結構和語義信息。
- 緩解(Easing)數據稀疏與標簽缺乏:圖大模型應具有很大的模型容量,因此容易出現過擬合,特別是在僅使用少量標注數據時。在更大規模的圖數據集和不同的圖任務上進行預訓練可以起到正則化的作用,提高泛化性。
- 擴展(Expanding)應用領域:預訓練的一個特點是能夠將所學知識遷移到不同領域。通過在不同的圖數據集上對圖大模型進行預訓練,以捕捉到更通用的結構,然后將這些知識應用、適配或微調到相似領域的圖數據中,從而最大程度地提升模型的適用性。
- 提升(Enhancing)魯棒性與泛化性:預訓練可以讓圖大模型接觸到具有不同特點的圖數據,包括不同大小、結構和復雜性的圖,從而使模型更加魯棒并泛化到未見過的圖數據或新的圖任務。
3. 模型適配
模型適配是將大語言模型應用到不同下游任務的重要環節,這對圖大模型同樣成立。代表性的模型適配技術包括提示學習(prompting)、高效參數微調(parameter-efficient fine-tuning)、模型對齊(alignment)和模型壓縮(model compression)等。下面簡要總結用于圖模型的適配技術。
提示學習最初是指為語言模型提供特定指令,以生成下游任務所需的內容。在大模型中,如何構建有效的提示是提升其在上下文學習效果的重要途徑。例如,大語言模型的提示通常包含下游任務的描述和一些示例。構建提示的一個關鍵在于使下游任務的形式和預訓練任務一致。在自然語言中,許多不同的任務都可以被統一建模為語言模型(language model),即通過上文生成下文。相比之下,圖數據的提示學習面臨的一個重要挑戰是如何統一不同的圖任務,包括節點級、邊級和圖級的任務等。
高效參數微調(parameter-efficient fine-tuning)是指僅優化模型的一小部分參數,而將其余參數保持固定的一種微調技術。除了減少計算成本,它還可以通過自適應使模型能夠處理新任務,同時不忘記預訓練中獲得的知識。近期,圖模型高效參數微調也開始受到關注。
模型壓縮旨在通過各種技術(包括知識蒸餾、剪枝和量化等)減少模型對硬件的需求,尤其適用于在資源受限場景中部署大模型。量化(Quantization)在大語言模型中受到了廣泛關注。量化的核心是減少模型使用的數值精度,同時盡可能保持模型性能。對于大模型,訓練后量化(PTQ)尤其受歡迎,因為它無需重新訓練大模型。
總結來看,受到大語言模型等相關技術啟發,圖的模型適配研究同樣吸引了一定關注。然而,由于目前尚無特別成功的圖大模型,這些方法的評估局限于相對較小的圖模型。因此,進一步驗證它們在應用于圖大模型時的有效性至關重要,也會帶來更多的挑戰和機遇。
4. 圖上的大語言模型
近期,一個新的研究熱點是直接利用大語言模型解決圖任務。其基本思想是將圖數據(包括圖結構和特征)以及圖任務轉化為自然語言表示,然后將圖問題視為常規的自然語言處理問題。例如,NLGraph 對大語言模型(如 GPT-3 和 GPT-4)在八個圖推理任務上進行了系統評估。這些任務涵蓋了不同復雜度的問題,包括連通性、最短路徑、最大流、模擬 GNN 等。實證結果發現,大語言模型在圖推理方面顯示出初步的能力,但在處理更復雜的圖問題上存在瓶頸。
另一個代表性工作 Graph-LLM 則系統地研究了大語言模型在文本屬性圖中的應用。具體而言,它探索了兩種策略:大語言模型作為增強器(LLMs-as-Enhancers),即使用大語言模型增強節點的文本屬性表征,然后將其傳遞給其他圖模型,例如圖神經網絡;大語言模型作為預測器(LLMs-as-Predictors),即直接將大語言模型用作預測器。實驗結果表明,大語言模型可以為圖機器學習提供巨大幫助。盡管這類研究仍處于早期階段,但它們驗證了大語言模型也是發展圖大模型的一個可能途徑,值得進一步探索和研究。
(五)圖應用
圖大模型存在許多有價值的潛在應用,包括但不限于推薦系統、知識圖譜、分子建模、金融分析、代碼與程序分析、城市計算與交通等。在這些領域中,目前已經出現了部分基于大語言模型的嘗試,但大都忽略了圖結構信息。為使圖大模型在這些領域中有效應用,需要利用大量易收集的圖數據,并結合領域知識,對圖大模型進行相應處理,例如微調或提示學習等。
二、研究進展
朱文武教授團隊針對圖大模型關鍵問題,圍繞動態性和可解釋性,取得了如下進展。
(一)基于大語言模型的動態圖評測基準與時空解耦思維鏈提示
動態圖,即圖中信息隨時間發生變化,在真實世界中非常普遍,并在交通預測、欺詐檢測、序列推薦等領域具有廣泛的應用。雖然之前一些工作探索了大語言模型在靜態圖上的能力。但大語言模型能否理解和處理動態圖上的時空信息尚未被研究。相比于靜態圖,動態圖具有更復雜的時空混合模式,因此更具挑戰性,總結為如下三方面:
- 如何設計動態圖任務以評估大語言模型理解時間和圖結構信息的能力;
- 動態圖上時間和空間維度具有復雜的相互作用,如何研究這些相互作用對模型性能的影響;
- 如何設計動態圖和相關任務的提示,使得模型能通過自然語言建模時空信息。
針對這些問題,朱文武教授團隊提出了一個 LLM4DyG,首個用于評估大語言模型在動態圖上時空理解能力的評測基準。
LLM4DyG 評測基準流程圖
具體而言,我們針對性地設計了九個動態圖任務,從時間、空間、時空三個維度評估大語言模型的能力,這些任務包括不同的時空模式(如時空連接、時空路徑和動態三角閉合等)以及三類不同的問題:“何時”(when)、“在哪”(where)、“是否”(whether)。同時,還采用了:
- 三種不同的數據生成方法,包括 Erd?s-Rényi 模型、隨機塊模型和森林火災模型;
- 多種統計指標,包括時間跨度、圖大小和密度等;
- 四種常見的提示技術,包括零樣本 / 少樣本提示、零樣本 / 少樣本思維鏈提示等;
- 以及五種大語言模型,包括閉源的 GPT-3.5 和開源的 Vicuna-7B、Vicuna-13B、Llama-2-13B 以及 CodeLlama-2-13B。
根據實驗觀察,我們進一步設計了動態圖時空解耦思維鏈 (DST2) 提示技術,以鼓勵大語言模型分別處理空間和時間信息。實驗結果表明,DST2 可以有效提高大語言模型在動態圖任務上的表現。
LLM4DyG 動態圖任務
(二)解耦圖大語言模型
文本屬性圖(text attributed graph)在研究與應用上均非常普遍,例如引用網絡、電子商務網絡和社交網絡等。最近,同樣有不少研究將大語言模型應用于文本屬性圖。然而,現有方法僅通過提示將圖結構信息傳遞給大語言模型,導致大語言模型無法理解圖內部復雜的結構關系。針對該問題,我們提出了解耦圖 - 文本學習(DGTL)模型,以增強大語言模型在文本屬性圖上的推理和預測能力。DGTL 模型通過解耦圖神經網絡層將圖結構信息進行編碼,使大語言模型能夠捕捉文本屬性圖中隱藏結構因子間的復雜關系。此外,DGTL 模型無需對預訓練大語言模型中的參數進行微調,從而降低計算成本,并適配于不同的大語言模型。實驗結果證明所提出的 DGTL 模型能達到比最先進基線模型更優或相仿的性能,同時還可以為預測結果提供基于自然語言的解釋,顯著提高了模型的可解釋性。
DGTL 模型框架圖
相關鏈接:
論文合集:https://github.com/THUMNLab/awesome-large-graph-model