大模型合成數據機理分析,人大劉勇團隊:信息增益影響泛化能力
在大語言模型(LLMs)后訓練任務中,由于高質量的特定領域數據十分稀缺,合成數據已成為重要資源。雖然已有多種方法被用于生成合成數據,但合成數據的理論理解仍存在缺口。為了解決這一問題,本文首先對當前流行的合成數據生成過程進行了數學建模。在此基礎上,本文證明了后訓練模型的泛化能力關鍵取決于生成模型帶來的信息增益,并從一個新的反向瓶頸視角進行了分析。此外,本文引入了互信息泛化增益(GGMI)的概念,闡明了泛化增益與信息增益之間的關系。我們希望為合成數據的應用提供理論基礎,進而為合成數據生成技術的設計與后訓練過程的優化提供新的理解。
It's not the form of data, but the information it brings that truly matters.
圖表 1: 合成數據一般生成范式
正如著名的 Scaling laws 所說的那樣,大語言模型(LLMs)的效能在很大程度上依賴于訓練數據的規模和質量 [1]。然而,在 LLM 的后訓練階段,尤其是在微調和模型對齊的過程中,可用的高質量數據十分稀缺。
為解決這一問題,在真實數據匱乏的情況下合成數據在最近的研究中里逐漸成為增強模型訓練的關鍵手段。截至 2024 年 9 月,在 Hugging Face 平臺上標注為 “合成” 的數據集已超過 1000 個。許多前沿的大語言模型,如 LLaMA [2]、Falcon [3]、Qwen [4] 和 GPT-4 [5] 都在其技術報告中表面在后訓練階段廣泛使用了合成數據。
近年來,研究人員提出了多種合成數據生成方法 [6-8],其中最為有效且常見的是通過一個在相關內容上進行過預訓練的大語言模型生成合成數據。具體來說,生成過程通常是基于少量的真實數據,編寫一組特定的 prompt,再經由生成模型生成具有針對性和高質量的合成數據,如圖 1 所示。這種方法不僅能夠緩解后訓練過程中數據不足的問題,還能夠為模型提供更豐富的任務相關信息,進而提升模型的泛化能力和對齊精度。這一范式已經在多個前沿的大語言模型中得到了廣泛應用,顯示出其在后訓練任務中的巨大潛力。
然而,當前對合成數據的建模和理論分析仍然存在顯著的不足,這在一定程度上限制了我們對其內在機制的深入理解 [9]。缺乏系統的理論框架使得我們難以準確預測合成數據在不同 LLM 應用中的有效性,也限制了生成模型在更具針對性的合成數據生成方面的優化 [10]。
因此,深入研究合成數據在模型訓練過程中的作用成為提升模型性能和可靠性的重要方向。通過加強對合成數據與大語言模型在訓練階段如何相互作用的理解,我們有望開發出更加精準的合成數據集,有效填補訓練數據中的特定空白,進而全面提升模型的表現和泛化能力。這不僅能為大語言模型在各類任務中的應用提供強有力的支持,還為未來的模型優化提供了理論依據。
合成數據為何能有效提升模型能力?這種提升又是基于什么關鍵因素?針對這些核心問題,我們將從對合成數據生成過程的建模開始,將其與模型的泛化能力建立聯系,并試圖探究這一框架下影響模型泛化能力的關鍵因素。
- 論文標題:Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective
- 論文鏈接:https://arxiv.org/abs/2410.01720
在此工作中,我們主要作出了如下貢獻:
- 我們對合成數據生成過程的進行了更加詳盡的數學建模,并從期望的角度揭示了這一過程的本質,即對生成模型輸出的分布的壓縮;
- 我們將合成數據的生成過程與后訓練模型的泛化能力進行了連接,并提出了 “反信息瓶頸” 視角,解釋了合成數據在訓練過程中的作用機理;
- 我們基于上述分析,從信息論的角度為合成數據訓練的模型提出了泛化誤差上界,并揭示了用于合成數據生成的生成模型所帶來的信息增益的重要地位。
模擬實驗設置
如圖 2 所示,在本研究中,我們使用混合高斯模型(GMM)來對合成數據的生成過程進行模擬。
簡單來說,我們設置了一個包含 K+J 個子高斯分布的 GMM 作為 ground-truth(gt-GMM),并在此基礎上引入 L 個額外的隨機子高斯分布構成用于模擬生成模型的 M。我們從 gt-GMM 的前 K 個子高斯進行采樣作為真實數據,從 M 中進行采樣作為最終的合成數據,并將其用于后續的驗證。
圖表 2: 模擬實驗設置
1 合成數據的生成過程是對生成模型輸出分布的壓縮
合成數據的生成可以形象化的表達為如下的過程 [11]。記用于產生 prompt 的少量真實數據為錨點
,合成數據為
,后訓練的目標任務為
。對于這一過程,一種抽象化的數學表達如下所示:
這一公式表示合成數據是在
上限定的表達,并且主要與目標任務和錨點數據有關。
其中,則主要與三種分別代表 “任務”
、“條件”
和 “錨點數據”
的元素相關:
基于此觀點,并結合實際應用中的生成步驟,我們進一步用等式的形式表達了合成數據的實際生成過程。
首先,合成數據可以看作是在
上的直接輸出與其他的調整兩部分組成。
其中,表示為了讓得到的合成數據具有可用性的格式與內容調整,例如數據策展等。
而更進一步,prompt 則可以表達為根據任務
對錨點數據的轉換:
將這一過程中涉及到的變量視為隨機變量,并寫出它們對應的分布,我們可以得到數據生成過程和對應的分布變化過程,如圖 3 所示。
圖表 3: 合成數據生成與分布變化過程
假設采樣自后訓練的目標任務分布
,生成模型
的輸出服從分布
,其在
上受限的輸出服從分布
,而最終的合成數據服從分布
。
從數據合成過程來看,合成數據是在
上的調整輸出。
若將其視為 “Prompting” 和 “Data Curation” 兩個步驟,數據合成的過程實質上是在對向
進行壓縮。如圖 4 所示。其中,所有藍色的部分表示
,而深藍色的部分表示
。
圖表 4: 分布的壓縮過程示意圖
值得注意的是,由于壓縮的不完全性, 最終不一定會完全覆蓋
,也有可能會產出不屬于
的輸出,這一現象也為后續體現的信息增益提供了較為直觀的解釋。
圖表 5: GMM 模擬實驗分布結果
我們使用一組混合高斯模型(GMM)對合成數據的生成進行了模擬,結果如圖 5 所示。其中,藍色的點為錨點數據,采樣自用藍色橢圓表示中心的分布中。黃色的點為合成數據,采樣自黃色橢圓表示中心的分布中。
在實驗的設置中,合成數據(黃色)的分布是對錨點數據(藍色)觀測的擬合和模擬,但由于 GMM 具體設置的差異,黃色橢圓最終無法完全覆蓋藍色橢圓,并且還覆蓋了藍色橢圓未覆蓋的位置,這與之前的分析相符。
2 連接數據合成過程與模型的泛化能力
對合成數據的生成過程的建模從分布的角度刻畫了其本質特征。
為了將這一特征與后訓練模型的能力相結合,我們從模型的泛化能力切入并進行相應的分析。首先,我們將大模型在合成數據
上進行訓練后得到的后訓練模型
的泛化誤差表示為:
其中和
分別表示模型在分布
上的真實誤差和在數據
上的經驗誤差。
經過進一步的分析與推導(詳見正文及附錄),最終,模型的泛化誤差具有如下引理中的上界:
此引理將的泛化誤差上界分為了兩個部分,分別是 “分布間的散度” 和 “與合成數據有關的泛化誤差” 。
對于前一部分,主要與數據合成中采用的生成模型和任務本身的性質有關,而后一部分將成為我們分析的重點。
3 “逆信息瓶頸” 視角下的泛化誤差上界
3.1 “逆信息瓶頸”
注意到,合成數據的生成過程其實和一個典型的機器學習過程在形式上非常類似,經由
得到 prompt
,再經由
得到
,十分類似于一個經典的 enc-dec 結構的機器學習過程,如圖 6 左側所示。
圖表 6: 逆信息瓶頸示意圖
然而,正因為大模型中合成數據與傳統機器學習的關鍵不同之處:生成模型是事先預訓練的,導致從信息流的視角下二者具有相反的性質。如圖 6 右側所示,在合成數據的生成過程中,信息量是一個被擴充的過程。
傳統機器學習過程中信息是逐步被壓縮的,因此存在信息瓶頸;而在生成的過程中,由于
的存在,實質為這一過程擴充了額外的信息,從而形成了一種 “逆信息瓶頸”。
3.2 “逆信息瓶頸” 視角下的泛化誤差分析
刻畫這一 “逆信息瓶頸” 的關鍵就是刻畫引入的信息增益。我們首先定義了合成因子
和
,其中
是和 prompt 有關的因子,
是和生成模型有關的因子。
我們將信息增益記為,并從信息論的角度出發,定義如下:
可以看出,衡量了在數據生成的過程中,除開 prompt 的影響后,由生成模型
所引入的信息量。
接著,我們考慮合成數據和后訓練模型的參數
之間的互信息,并發現其存在可以由
所約束的上界:
根據信息瓶頸理論已有的研究結果,經過一定的推導,并與之前的結論相結合,我們為的期望泛化誤差尋找到了一個最終的上界:
這一上界的關鍵部分由所控制。直觀上可見,當更多的信息增益被引入時, 將具有更加緊湊的期望泛化誤差上界,從而獲得更好的泛化性能。
4 合成數據的泛化增益
之前的分析將后訓練大模型的泛化能力與合成數據的生成過程聯系在了一起,并引入了信息增益的概念,從而解釋了合成數據能夠提升模型性能的原因。基于此更進一步,我們將探究第二個問題,即合成數據的應用是從哪些方面帶來泛化能力提升的。
首先,我們考慮僅在錨點數據上進行訓練的模型的期望泛化誤差上界:
顯然,合成數據帶來的泛化能力的提升主要體現在數據的規模上,即。
除了數據規模帶來的提升外,合成數據中所引入的新信息是否也能帶來泛化能力的提升呢?為此,我們從互信息項作為切入,定義了如下的衡量標準:GGMI。
直觀上,更大的 GGMI 表示合成數據帶來了更加緊湊的互信息項,從而降低了模型整體的泛化誤差上界。
經過一定的推導從而消除不統一的參數項,GGMI 存在如下的上界:
可以看出, 對于 GGMI 的增長也具有重要的作用。此外,降低熵等目標也有助于合成數據提供更好的泛化增益。
我們繼續在 GMM 的設定上對這一結果進行模擬。按照上述合成數據的生成過程,我們分別得到了和
,并用其分別訓練得到了 GMM
和
,并設計了一個 ground-truth GMM
來表示真正的目標分布。為了衡量
和
的輸出與
之間的差距的相對大小,我們基于 KL 散度定義了 KL Gap:
. 模擬實驗的結果如下:(增大
有助于增大
,而增大
會分別影響 GGMI 上界中其他信息熵項
。
圖表 7: GMM 泛化增益模擬實驗結果
從圖 7 中可以看出,更大的信息增益能有效提升 KL Gap,即提升了使用合成數據訓練的模型相比于未使用合成數據的模型對 ground-truth 的擬合結果。此外,對其他變量的改變也相應的影響了 KL Gap 的結果,進一步驗證了這一結論。
5 小結
我們從大模型中合成數據的生成過程出發,為常見的數據合成提供了數學上的建模,并將其與模型的泛化能力相結合,從而為合成數據的應用提供了理論基礎。基于此,我們從獨特的 “逆信息瓶頸” 視角切入,將模型的泛化能力歸約在了生成模型所引入的信息增益上,并通過模擬實驗的形式進行了驗證。
在未來的工作中,一方面我們希望能為大模型合成數據的作用機理提供更加深入的解析,從而為數據合成的方法研究提供理論依據;另一方面,我們希望能解決生成模型與后訓練任務間匹配的關系,通過動態的方式自適應的提升合成數據的質量。
作者介紹
劉勇,中國人民大學,長聘副教授,博士生導師,國家級高層次青年人才。長期從事機器學習基礎理論研究,共發表論文 100 余篇,其中以第一作者 / 通訊作者發表頂級期刊和會議論文近 50 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。獲中國人民大學 “杰出學者”、中國科學院 “青年創新促進會” 成員、中國科學院信息工程研究所 “引進優青” 等稱號。主持國家自然科學面上 / 基金青年、北京市面上項目、中科院基礎前沿科學研究計劃、騰訊犀牛鳥基金、CCF - 華為胡楊林基金等項目。
甘澤宇,中國人民大學高瓴人工智能學院博士研究生,本科及碩士研究生畢業于中國人民大學信息學院。當前主要研究方向包括大模型對齊與機器學習理論。