別再卷數(shù)據(jù)了，LLM也怕「過勞死」！CMU等揭秘災(zāi)難性過度訓(xùn)練

2025-05-06 00:45:00

人工智能

顛覆LLM預(yù)訓(xùn)練認(rèn)知：預(yù)訓(xùn)練token數(shù)越多，模型越難調(diào)！CMU、斯坦福、哈佛、普林斯頓等四大名校提出災(zāi)難性過度訓(xùn)練。

如果訓(xùn)練數(shù)據(jù)越多那么LLM越好。

這到底對不對？

不對！

增加更多的預(yù)訓(xùn)練數(shù)據(jù)來擴(kuò)展語言模型，反而可能會(huì)導(dǎo)致后訓(xùn)練階段的性能下降！

這就是「災(zāi)難性過度訓(xùn)練」現(xiàn)象。

圖1：經(jīng)過高強(qiáng)度預(yù)訓(xùn)練的語言模型，可能出現(xiàn)「災(zāi)難性過度訓(xùn)練」現(xiàn)象。

來自CMU、斯坦福、哈佛、普林斯頓「四大名校」的研究團(tuán)隊(duì)，用實(shí)驗(yàn)挑戰(zhàn)了「預(yù)訓(xùn)練規(guī)模越大越好」這一傳統(tǒng)觀點(diǎn)。

在實(shí)驗(yàn)中，研究團(tuán)隊(duì)發(fā)現(xiàn)使用3T tokens預(yù)訓(xùn)練的模型，表現(xiàn)接近于僅用1.5T tokens預(yù)訓(xùn)練的模型。預(yù)訓(xùn)練token并非越多越好！

圖片

論文鏈接：https://arxiv.org/abs/2503.19206

新研究的貢獻(xiàn)，總結(jié)如下：

現(xiàn)實(shí)世界的證據(jù)：展示了災(zāi)難性過度訓(xùn)練在現(xiàn)有語言模型和任務(wù)中的普遍性，表明更長的預(yù)訓(xùn)練時(shí)間可能會(huì)在指令微調(diào)和多模態(tài)微調(diào)后導(dǎo)致性能下降。
控制實(shí)驗(yàn)：識別出漸進(jìn)敏感性是災(zāi)難性過度訓(xùn)練的關(guān)鍵機(jī)制，擴(kuò)展的預(yù)訓(xùn)練增加了模型參數(shù)對后續(xù)更新的脆弱性。
理論分析：在線性遷移學(xué)習(xí)框架中，提供了災(zāi)難性過度訓(xùn)練的正式表征，展示了增量特征學(xué)習(xí)如何導(dǎo)致漸進(jìn)敏感性和不可避免的性能退化。

在保持模型參數(shù)數(shù)量不變的情況下，最新的語言模型，預(yù)訓(xùn)練使用的tokens越來越多——

而且這一趨勢并沒有放緩！

更多的預(yù)訓(xùn)練tokens，意味著更好的基礎(chǔ)模型。

但這是更好的后訓(xùn)練起點(diǎn)嗎？

來看看一些例子：OLMo-1B在3萬億tokens上訓(xùn)練后，再經(jīng)過指令調(diào)優(yōu)，表現(xiàn)比使用2.3萬億tokens版本得分下降超過2%。

換而言之，數(shù)據(jù)量增加了30%，性能不升，反而下降了2%！

在許多其他后續(xù)訓(xùn)練設(shè)置中，也觀察到了類似的現(xiàn)象。

災(zāi)難性過度訓(xùn)練的例子

為什么擴(kuò)展預(yù)訓(xùn)練會(huì)損害微調(diào)性能呢？

不妨退后一步，考慮更簡單的情況：測試高斯噪聲在不同預(yù)訓(xùn)練階段對模型參數(shù)的影響。

早期檢查點(diǎn)：對高斯擾動(dòng)具有較強(qiáng)的魯棒性。
后期檢查點(diǎn)：對擾動(dòng)非常敏感，導(dǎo)致擾動(dòng)后表現(xiàn)變差！

圖3｜左圖：敏感性隨著訓(xùn)練的進(jìn)行而增加，右圖：最終性能逐漸下降。

發(fā)生了什么？擴(kuò)展的預(yù)訓(xùn)練增加了模型對所有類型的參數(shù)更新的敏感性：

訓(xùn)練初期：模型敏感性較低，但性能提升
訓(xùn)練后期：模型變得高度敏感，性能下降

微調(diào)的表現(xiàn)也類似：在不同的預(yù)訓(xùn)練檢查點(diǎn)，使用固定的學(xué)習(xí)率，會(huì)看到任務(wù)性能和網(wǎng)絡(luò)數(shù)據(jù)困惑度最終都會(huì)下降。

即使經(jīng)過超參數(shù)調(diào)優(yōu)，這種現(xiàn)象仍然存在。

也就是說，過度訓(xùn)練=更差的微調(diào)結(jié)果！

過度訓(xùn)練，可能導(dǎo)致性能下降

在兩種典型微調(diào)場景，研究團(tuán)隊(duì)驗(yàn)證了延長預(yù)訓(xùn)練時(shí)間的負(fù)面影響：

指令微調(diào)（instruction tuning）對模型指令跟隨能力的提升效果；
基于LLaVA框架的多模態(tài)微調(diào)（視覺指令微調(diào)）。

總體而言，在進(jìn)行指令調(diào)優(yōu)后，3T tokens預(yù)訓(xùn)練的模型表現(xiàn)不如2.3T tokens預(yù)訓(xùn)練的模型，其表現(xiàn)接近于僅用1.5T tokens（少了50% tokens）預(yù)訓(xùn)練的模型。

圖2對比了不同OLMo-1B模型在不同預(yù)訓(xùn)練預(yù)算下的表現(xiàn)（橫軸）。

延長預(yù)訓(xùn)練總是能提升基礎(chǔ)模型的表現(xiàn)。

與以往的研究一致，發(fā)現(xiàn)延長預(yù)訓(xùn)練能夠使基礎(chǔ)模型的性能持續(xù)提高。在我們評估的所有下游任務(wù)中，性能不斷提升（圖2中的虛線）。

延長預(yù)訓(xùn)練可能會(huì)影響后期訓(xùn)練的表現(xiàn)。

盡管基礎(chǔ)模型在提升，但發(fā)現(xiàn)在基礎(chǔ)模型進(jìn)行后訓(xùn)練后，出現(xiàn)了意外的性能下降。

具體來說，在Anthropic-HH數(shù)據(jù)集上，進(jìn)行指令跟隨微調(diào)，經(jīng)過3T tokens預(yù)訓(xùn)練的基礎(chǔ)模型在響應(yīng)率（AlpacaEval分?jǐn)?shù)）上比用2.3T tokens的模型低了多達(dá)3%（約少了23%的tokens）。

在各種OOD任務(wù)（如推理和問答）上，也觀察到了類似的性能下降，評估基準(zhǔn)包括ARC-Easy、ARC-Challenge、HellaSwag和PIQA等。

圖2：延長預(yù)訓(xùn)練可能會(huì)導(dǎo)致在Anthropic-HH（左）和LLaVA（右）上的微調(diào)性能下降。

在多模態(tài)微調(diào)方面，發(fā)現(xiàn)延長預(yù)訓(xùn)練能持續(xù)提升VLM得分。

然而，預(yù)訓(xùn)練使用更多tokens的模型，表現(xiàn)出更強(qiáng)的遺忘現(xiàn)象，并在多個(gè)OOD基準(zhǔn)測試中出現(xiàn)更大的性能下降。

在某些數(shù)據(jù)集（如PIQA）上，性能下降如此嚴(yán)重，以至于延長預(yù)訓(xùn)練在后期訓(xùn)練后，反而會(huì)對性能產(chǎn)生負(fù)面影響（見圖2右側(cè)）。

總體來說，雖然延長預(yù)訓(xùn)練總是能提升預(yù)訓(xùn)練性能，但這些提升并不總是能轉(zhuǎn)化為后期訓(xùn)練中的表現(xiàn)。

在一些設(shè)置中，延長預(yù)訓(xùn)練實(shí)際上會(huì)對后期訓(xùn)練的性能產(chǎn)生負(fù)面影響。

災(zāi)難性過度訓(xùn)練：Why?

傳統(tǒng)觀點(diǎn)認(rèn)為：延長預(yù)訓(xùn)練時(shí)間應(yīng)能持續(xù)提升最終性能。

但新研究發(fā)現(xiàn)：當(dāng)預(yù)訓(xùn)練超過某個(gè)臨界點(diǎn)后，反而會(huì)損害模型最終表現(xiàn)——

這一現(xiàn)象被命名為「災(zāi)難性過度訓(xùn)練」（catastrophic overtraining）。

災(zāi)難性過度訓(xùn)練是因?yàn)樵陬A(yù)訓(xùn)練過程中，模型對參數(shù)變化的敏感性逐步增強(qiáng)，導(dǎo)致在微調(diào)后更容易「遺忘」之前預(yù)訓(xùn)練所獲得的能力。

實(shí)驗(yàn)發(fā)現(xiàn)，修改預(yù)訓(xùn)練模型的參數(shù)會(huì)導(dǎo)致模型遺忘之前獲得的能力，而這種遺忘的程度取決于參數(shù)修改的幅度。

然而，影響遺忘的另一個(gè)關(guān)鍵因素所謂的漸進(jìn)性敏感性：

對于相同幅度的修改，經(jīng)過更長時(shí)間預(yù)訓(xùn)練的模型表現(xiàn)出更大的遺忘（見圖4）。

當(dāng)由于后訓(xùn)練修改引起的遺忘超過預(yù)訓(xùn)練過程中性能提升時(shí)，就會(huì)發(fā)生災(zāi)難性過度訓(xùn)練。

雖然限制后訓(xùn)練中參數(shù)修改的幅度可以緩解這種性能退化，但這也可能限制預(yù)訓(xùn)練模型的適應(yīng)能力和學(xué)習(xí)能力。

這揭示了一個(gè)內(nèi)在的權(quán)衡關(guān)系，這種關(guān)系決定了在實(shí)踐中，防止災(zāi)難性過度訓(xùn)練的可行性（見圖7）。

高斯擾動(dòng)

使用在不同token預(yù)算下預(yù)訓(xùn)練的基礎(chǔ)模型，并添加以下形式的高斯噪聲

圖片

其中，Σ是參數(shù)初始化分布的協(xié)方差矩陣（即在預(yù)訓(xùn)練之前的分布），γ控制擾動(dòng)的幅度。

首先，繪制了高斯噪聲對C4困惑度的變化如圖3（左）所示。

也就是說，追蹤基礎(chǔ)模型和擾動(dòng)模型之間困惑度的變化，隨著預(yù)訓(xùn)練token數(shù)量的變化。

對噪聲的逐漸敏感性：對于固定的擾動(dòng)幅度，基礎(chǔ)模型和擾動(dòng)模型之間的困惑度變化隨著預(yù)訓(xùn)練token數(shù)量的增加單調(diào)增加。

同時(shí)，繪制了基礎(chǔ)模型的絕對C4困惑度（圖3右側(cè)，虛線）。基礎(chǔ)模型的困惑度隨著預(yù)訓(xùn)練token數(shù)量的增加而下降。

圖3：高斯擾動(dòng)敏感性演進(jìn)

圖3左圖：隨著預(yù)訓(xùn)練時(shí)長增加，高斯參數(shù)擾動(dòng)對模型困惑度的負(fù)面影響逐漸加劇。

圖3右圖：災(zāi)難性過訓(xùn)練最終將導(dǎo)致預(yù)訓(xùn)練困惑度整體惡化。

在此實(shí)驗(yàn)框架下，觀察到災(zāi)難性過度訓(xùn)練現(xiàn)象的產(chǎn)生，其根源在于模型對噪聲的敏感性隨預(yù)訓(xùn)練進(jìn)程逐步提升，與基礎(chǔ)模型自身性能的單調(diào)增長相互作用。

具體而言，在預(yù)訓(xùn)練初期，模型性能的提升速度顯著超越其對噪聲敏感性的增長，因此即使引入高斯擾動(dòng)，模型的困惑度仍呈現(xiàn)凈下降趨勢。

然而，當(dāng)預(yù)訓(xùn)練進(jìn)程跨越某一臨界點(diǎn)后，模型對噪聲的敏感性增長速率反超其性能提升速率，從而導(dǎo)致擾動(dòng)后困惑度不降反升。這一現(xiàn)象在圖3右側(cè)清晰地展現(xiàn)為一個(gè)U型困惑度變化曲線。

跟蹤拐點(diǎn)：在圖3中，較大的擾動(dòng)與預(yù)訓(xùn)練的更大且更迅速的惡化相關(guān)聯(lián)。

因此，敏感性引起的惡化超過基礎(chǔ)模型提升的點(diǎn)。對于較大的擾動(dòng)來說，會(huì)加速這一過程，導(dǎo)致拐點(diǎn)出現(xiàn)在較低的token預(yù)算下。

直觀解釋：更多的預(yù)訓(xùn)練tokens能夠提升基礎(chǔ)模型（如預(yù)期），但同時(shí)也使基礎(chǔ)模型對噪聲更敏感。

逐漸增加的敏感性會(huì)導(dǎo)致災(zāi)難性過度訓(xùn)練，因?yàn)樵肼曇鸬睦Щ蠖仍黾幼罱K會(huì)壓倒模型的提升。

對于大幅度的擾動(dòng)，這種惡化會(huì)在較低的token預(yù)算下出現(xiàn)，而對于較小幅度的擾動(dòng)，直到較大的token預(yù)算時(shí)，可能才會(huì)觀察到災(zāi)難性過度訓(xùn)練。

固定學(xué)習(xí)率的微調(diào)

首先，類似于在固定幅度的高斯擾動(dòng)（γ）下量化性能下降的方法，也需要以某種方式對微調(diào)進(jìn)行正則化，以確保在不同的預(yù)訓(xùn)練檢查點(diǎn)之間的變化程度，保持一致。

對于每個(gè)學(xué)習(xí)率，研究人員繪制了從預(yù)訓(xùn)練模型到微調(diào)模型的C4困惑度變化，如圖4所示。

在圖4中，隨著預(yù)訓(xùn)練token數(shù)量的增加，C4困惑度在不斷變化。

首先，較大的學(xué)習(xí)率會(huì)更大程度地扭曲模型，因此表現(xiàn)出更明顯的困惑度增加。

其次，觀察到預(yù)訓(xùn)練tokens的數(shù)量與高斯噪聲下的行為趨勢相似，但這次是針對微調(diào)的。

微調(diào)中的逐漸敏感性：對于固定的學(xué)習(xí)率，困惑度的變化隨著預(yù)訓(xùn)練token數(shù)量的增加而單調(diào)增加。

圖4：微調(diào)敏感性演進(jìn)現(xiàn)象：延長預(yù)訓(xùn)練時(shí)間會(huì)逐步加劇微調(diào)過程對模型困惑度的負(fù)面影響

在敏感性增加超過基礎(chǔ)模型提升速率的拐點(diǎn)處，觀察到災(zāi)難性過度訓(xùn)練。這導(dǎo)致了微調(diào)后C4困惑度呈現(xiàn)U型趨勢（圖5上）。

跟蹤微調(diào)的拐點(diǎn)

與高斯擾動(dòng)設(shè)置類似，由于較大的學(xué)習(xí)率會(huì)加速降解的增加，因此使用較大學(xué)習(xí)率訓(xùn)練的模型在較低的token預(yù)算下會(huì)出現(xiàn)拐點(diǎn)，并且降解更為明顯。

ID（領(lǐng)域內(nèi)）困惑度

雖然較小的學(xué)習(xí)率通常會(huì)導(dǎo)致C4困惑度的降解較小，但微調(diào)模型的ID困惑度呈現(xiàn)不同的趨勢：較大的學(xué)習(xí)率，直到某個(gè)臨界點(diǎn)，會(huì)導(dǎo)致較低的ID困惑度，盡管有時(shí)也會(huì)在ID困惑度上呈現(xiàn)U型趨勢（圖5下）。

這意味著調(diào)整學(xué)習(xí)率有時(shí)可以減輕降解，但通常是以犧牲微調(diào)性能為代價(jià)。

我們將在第3.4.2節(jié)探討，何時(shí)調(diào)整學(xué)習(xí)率以最小化ID困惑度能緩解隨著預(yù)訓(xùn)練延長而出現(xiàn)的C4困惑度降解，何時(shí)又不能。

直觀解釋

來自高斯擾動(dòng)設(shè)置的直覺可以延續(xù)到固定學(xué)習(xí)率的微調(diào)上。

更多的預(yù)訓(xùn)練tokens將提升基礎(chǔ)模型的質(zhì)量，同時(shí)也會(huì)導(dǎo)致模型在微調(diào)時(shí)的降解更嚴(yán)重。

超過某個(gè)臨界點(diǎn)后，預(yù)訓(xùn)練更多tokens會(huì)導(dǎo)致最終微調(diào)模型的C4困惑度下降，且通常也會(huì)影響微調(diào)任務(wù)的領(lǐng)域內(nèi)ID困惑度。

圖5｜固定超參數(shù)微調(diào)下的災(zāi)難性過度訓(xùn)練：當(dāng)使用固定超參數(shù)進(jìn)行微調(diào)時(shí)，延長預(yù)訓(xùn)練可能會(huì)導(dǎo)致C4困惑度（上圖）和ID困惑度（微調(diào)任務(wù)；下圖）整體增加

權(quán)衡性能退化和微調(diào)收益

然而，學(xué)習(xí)率是在來自領(lǐng)域內(nèi)（ID）任務(wù)的驗(yàn)證集上進(jìn)行調(diào)優(yōu)的。

調(diào)優(yōu)過程可能會(huì)導(dǎo)致在不同的預(yù)訓(xùn)練檢查點(diǎn)上獲得不同的最優(yōu)學(xué)習(xí)率，從而有可能緩解災(zāi)難性過擬合。

性能下降既取決于學(xué)習(xí)率，也與敏感度有關(guān)。

因此，如果一個(gè)在更多標(biāo)記上進(jìn)行預(yù)訓(xùn)練的模型在微調(diào)時(shí)能夠采用更小的學(xué)習(xí)率來獲得良好的領(lǐng)域內(nèi)表現(xiàn)，它就能補(bǔ)償敏感度的增加。

總體來說，實(shí)驗(yàn)表明，逐漸增加的敏感性在兩種類型的修改下都會(huì)表現(xiàn)出來：非結(jié)構(gòu)化的高斯噪聲和結(jié)構(gòu)化的微調(diào)。

于是，研究人員推測：逐漸增加的敏感性是普遍現(xiàn)象。

在固定的擾動(dòng)幅度或固定的微調(diào)學(xué)習(xí)率下，逐漸增加的敏感性導(dǎo)致災(zāi)難性過度訓(xùn)練，因?yàn)樾阅艿耐嘶罱K超過了延長預(yù)訓(xùn)練帶來的提升。

然而，在實(shí)踐中，最優(yōu)學(xué)習(xí)率是在目標(biāo)領(lǐng)域內(nèi)任務(wù)上進(jìn)行調(diào)優(yōu)的，其變化可能導(dǎo)致領(lǐng)域內(nèi)性能或領(lǐng)域外（預(yù)訓(xùn)練）指標(biāo)的降解。

這突出了在延長預(yù)訓(xùn)練中的權(quán)衡的重要性，即最優(yōu)學(xué)習(xí)率的演變最終決定了這些模型在微調(diào)時(shí)是否會(huì)發(fā)生災(zāi)難性過度訓(xùn)練。

最優(yōu)學(xué)習(xí)率

研究人員調(diào)節(jié)學(xué)習(xí)率，以最大化微調(diào)后的領(lǐng)域內(nèi)表現(xiàn)。

圖6中繪制了與最優(yōu)學(xué)習(xí)率對應(yīng)的領(lǐng)域內(nèi)表現(xiàn)和預(yù)訓(xùn)練困惑度。

圖6.超參數(shù)調(diào)優(yōu)后的災(zāi)難性過度訓(xùn)練：即使在進(jìn)行超參數(shù)調(diào)優(yōu)后，延長預(yù)訓(xùn)練仍可能導(dǎo)致C4困惑度（上圖）和ID困惑度（微調(diào)任務(wù)；下圖）的最終降解

研究結(jié)果表明，災(zāi)難性過擬合的出現(xiàn)取決于最優(yōu)學(xué)習(xí)率的變化方式。

領(lǐng)域內(nèi)表現(xiàn)和預(yù)訓(xùn)練困惑度之間的權(quán)衡，可以分為為三種情況，如圖7所示：

1. 恒定最優(yōu)學(xué)習(xí)率：當(dāng)預(yù)訓(xùn)練計(jì)算量T較大時(shí)，在不同token預(yù)算下采用恒定不變的最優(yōu)學(xué)習(xí)率會(huì)導(dǎo)致域內(nèi)（ID）和域外（OOD）性能同時(shí)下降（圖7左）。

2. 緩慢下降最優(yōu)學(xué)習(xí)率：采用緩慢衰減的最優(yōu)學(xué)習(xí)率可以提升域內(nèi)性能，但會(huì)導(dǎo)致域外性能下降（圖7中）。

3. 快速下降最優(yōu)學(xué)習(xí)率：隨著預(yù)訓(xùn)練計(jì)算量的增加，快速衰減的最優(yōu)學(xué)習(xí)率能同時(shí)提升域內(nèi)和域外性能（圖7右）。

圖7：隨著預(yù)訓(xùn)練tokens數(shù)T的變化，最優(yōu)學(xué)習(xí)率的規(guī)模如何影響模型評估

使用非最優(yōu)學(xué)習(xí)率來緩解降解

在微調(diào)時(shí)如果使用最優(yōu)學(xué)習(xí)率導(dǎo)致災(zāi)難性過度訓(xùn)練，采用非最優(yōu)學(xué)習(xí)率有時(shí)可以緩解降解或延遲拐點(diǎn)的到來。例如，在圖7中，調(diào)優(yōu)導(dǎo)致OOD損失最終降解的情況下，選擇使用最小的學(xué)習(xí)率可以延遲拐點(diǎn)的到來。然而，這也會(huì)導(dǎo)致較低的ID性能。

超越學(xué)習(xí)率的正則化

對于高斯擾動(dòng)和微調(diào)設(shè)置，我們觀察到較大的參數(shù)擾動(dòng)加速并放大了模型性能降解的速度。

在微調(diào)設(shè)置中，學(xué)習(xí)率有效地控制了整體參數(shù)更新的幅度。

然而，顯式的正則化方法來防止大幅度的參數(shù)更新，也可能減輕或延遲災(zāi)難性過度訓(xùn)練。我們將在第4節(jié)探討一種正則化微調(diào)的理論實(shí)例。

理論分析

災(zāi)難性過度訓(xùn)練這一現(xiàn)象令人驚訝，因?yàn)樗c普遍的觀點(diǎn)相反——

即更長時(shí)間的預(yù)訓(xùn)練總是能導(dǎo)致更高質(zhì)量的模型。

因此，災(zāi)難性過度訓(xùn)練如何以及何時(shí)出現(xiàn)，值得探討。

研究團(tuán)隊(duì)在在簡化的預(yù)訓(xùn)練和微調(diào)二層線性網(wǎng)絡(luò)的設(shè)置中，從理論上分析了災(zāi)難性過度訓(xùn)練。

主要發(fā)現(xiàn)表明，延長預(yù)訓(xùn)練周期最終必然會(huì)導(dǎo)致模型出現(xiàn)逐漸增加的敏感性以及災(zāi)難性過度訓(xùn)練。盡管適當(dāng)?shù)恼齽t化可以延緩這些現(xiàn)象的發(fā)生，但這通常會(huì)以犧牲下游任務(wù)性能為代價(jià)（參見定理4.4、4.6和4.7）。

圖片