ICML 2025 | 如何在合成文本數據時避免模型崩潰?
隨著生成式人工智能技術的飛速發展,合成數據正日益成為大模型訓練的重要組成部分。未來的 GPT 系列語言模型不可避免地將依賴于由人工數據和合成數據混合構成的大規模語料。
然而,這一趨勢也帶來了嚴峻挑戰:合成數據如果不加控制地使用,可能引發 “模型崩潰”(Model Collapse)問題。即便僅在一次訓練中混入較多比例的合成數據,也可能導致模型性能急劇下降,難以泛化到真實世界的數據中。
最近在 ICML 2025 會議上,來自上交大等研究機構的研究團隊系統性地剖析了這一問題,并提出了一種創新的數據生成策略,Token-Level Editing,旨在有效避免模型崩潰。
- 論文標題:HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?
- 論文鏈接:https://arxiv.org/pdf/2412.14689
不同于直接使用生成數據,該方法在真實數據上引入細粒度的 “微編輯” 操作,從而構建出結構更穩定、泛化性更強的 “半合成” 數據,有效規避了模型崩潰風險。
非迭代式模型崩潰現象識別
為了揭示合成數據對語言模型訓練的影響,研究團隊系統分析了不同合成比例下的模型訓練行為。實驗顯示,即使只進行一次預訓練,在數據中混入高比例的合成數據,也會顯著導致性能下降。這種現象被稱為非迭代式模型崩潰(Non-iterative Collapse),并在多個語言理解任務上得到了驗證。
通過進一步統計分析,研究發現,合成數據相較于人工數據存在兩類結構性缺陷:
- 分布覆蓋收窄:缺乏低頻與長尾樣本,難以體現語言的多樣性。
- 特征過度集中:n-gram 等語言特征分布密度過高,易導致模型過擬合。
Token-Level Editing
以編輯替代純生成
更精細、更高質量的數據生成方式
為了解決上述問題,作者團隊提出了一種 Token-Level Editing 方法不依賴生成整段文本,而是在訓練數據中僅針對模型 “過度自信” 的 token 進行替換,定義如下編輯規則:
其中, 是模型對
的條件概率估計,p 是編輯閾值,
是從先驗分布中重新采樣的新 token。這一過程保留了原始數據的長尾結構,僅對 “重復高置信度區域” 進行微調。
理論結果
測試誤差有限上界,避免模型崩潰
作者進一步構建了線性回歸分析框架,并證明 Token-Level Editing 過程的測試誤差存在固定上界:
相比模型崩潰中的誤差線性上升,這里誤差被嚴格約束,不隨迭代輪次增長。其關鍵原理在于:
每輪編輯操作只對一小部分樣本進行調整,模型始終保持對真實數據分布的覆蓋,避免了分布轉移和特征過度集中。
進一步地,如果編輯矩陣 M_n 的影響強度遞減(滿足 ),則最終誤差上界進一步優化為:
該理論說明,即使在多輪訓練中,Token-Level Editing 依然能夠從數學上阻止誤差的無界增長,實現 “理論上不崩潰” 的數據增強路徑。
實驗結果
從預訓練到微調全面驗證方法有效性
為全面驗證 Token-Level Editing 的有效性,研究團隊在語言模型訓練的三個關鍵階段進行了系統實驗:
- 預訓練階段(Pre-training):在通用任務如 PIQA、BoolQ、Winogrande 等 benchmark 上,模型在引入編輯數據后表現持續優于純合成數據方案。例如在 OLMo-1B 上,整體任務平均分提升了 +0.36 個百分點。
- 持續預訓練階段(Continual Pre-training):在生物醫藥、金融、數學等專業任務中,Token-Level Editing 帶來了跨域的泛化提升。例如在 PubMedQA 任務中,準確率提升高達 +13.6%。
- 監督微調階段(Supervised Fine-tuning):在指令理解與代碼推理等復雜任務中,編輯數據同樣展現了對多樣語言指令的強魯棒性。以 LLaMA-3 為例,平均提升 +0.4~0.5%,且在多個任務上保持一致性優勢。
此外,為驗證方法的穩健性,研究還進行了多輪消融實驗,包括:
- 編輯閾值 p 的變化范圍;
- 多種采樣策略(Top-k、Top-p、拒絕采樣);
- 不同 token 置信度分布下的替換比例。
結果顯示:在不增加訓練數據規模的前提下,該方法依然具備良好可控性與可遷移性,具備強大的實際落地潛力。