Post-Training有多重要？AI2研究員長(zhǎng)文詳解前沿模型的后訓(xùn)練秘籍

作者：新智元 2024-08-19 13:16:16

越來(lái)越多研究發(fā)現(xiàn)，后訓(xùn)練對(duì)模型性能同樣重要。Allen AI的機(jī)器學(xué)習(xí)研究員Nathan Lambert最近發(fā)表了一篇技術(shù)博文，總結(jié)了科技巨頭們所使用的模型后訓(xùn)練配方。

隨著LLM學(xué)界和工業(yè)界日新月異的發(fā)展，不僅預(yù)訓(xùn)練所用的算力和數(shù)據(jù)正在瘋狂內(nèi)卷，后訓(xùn)練（post-training）的對(duì)齊和微調(diào)方法也在不斷更新。

InstructGPT、WebGPT等較早發(fā)布的模型使用標(biāo)準(zhǔn)RLHF方法，其中的數(shù)據(jù)管理風(fēng)格和規(guī)模似乎已經(jīng)過(guò)時(shí)。

最近幾個(gè)月來(lái)，Meta、谷歌和英偉達(dá)等AI巨頭紛紛發(fā)布開(kāi)源模型，附帶發(fā)布詳盡的論文或報(bào)告，包括Llama 3.1、Nemotron 340B、Gemma 2，以及Apple Intellegence的基礎(chǔ)模型報(bào)告。

從這些披露的信息中，我們可以看到后訓(xùn)練方法的一些前沿變化趨勢(shì)。Allen AI研究科學(xué)家Nathan Lambert最近就這個(gè)話題發(fā)布了一篇文章。

原文地址：https://www.interconnects.ai/p/frontier-model-post-training

Nathan Lambert博士畢業(yè)于UC伯克利，曾在HuggingFace領(lǐng)導(dǎo)RLHF團(tuán)隊(duì)，目前是Allen AI的機(jī)器學(xué)習(xí)研究員。

他在文章中指出，合成數(shù)據(jù)、迭代訓(xùn)練、人類偏好標(biāo)簽和大量過(guò)濾，是這些模型所用后訓(xùn)練方法的共同特點(diǎn)。具體來(lái)說(shuō)，新的后訓(xùn)練配方建立在以下預(yù)設(shè)的基礎(chǔ)上：

- 合成數(shù)據(jù)的質(zhì)量可能高于人類數(shù)據(jù)，特別是對(duì)于具有挑戰(zhàn)性的任務(wù)

- RLHF可以比指令微調(diào)擴(kuò)展到更大規(guī)模

- 需要多輪訓(xùn)練和生成才能得到最佳模型

- 數(shù)據(jù)過(guò)濾是訓(xùn)練中最重要的部分

這些假設(shè)在很大程度上相互交織，構(gòu)成了可以擴(kuò)展到大型團(tuán)隊(duì)的訓(xùn)練方案，非常適用于科技巨頭。文章的具體內(nèi)容對(duì)以上四點(diǎn)分別做出了詳細(xì)闡釋。

新的標(biāo)準(zhǔn)Pipeline

如果我們認(rèn)為ChatBot Arena分?jǐn)?shù)衡量了模型的后訓(xùn)練表現(xiàn)，這就很大程度上與風(fēng)格和魯棒性相關(guān)，幾乎所有的主要實(shí)驗(yàn)室都通過(guò)迭代訓(xùn)練獲得了顯著收益。

我們還沒(méi)有看到Gemini 2或GPT-5發(fā)布，它們也許會(huì)重置目前的后訓(xùn)練范式，并有可能解鎖我們對(duì)模型更深層次的控制能力。

但從目前來(lái)看，各個(gè)頂級(jí)實(shí)驗(yàn)室所用的方法明顯趨同，這種趨勢(shì)比預(yù)期中要清晰得多。

人類偏好數(shù)據(jù)

最初的RLHF管道的重點(diǎn)是人類數(shù)據(jù)，主要有兩種形式：1）用于對(duì)專門任務(wù)進(jìn)行指令微調(diào)的人類數(shù)據(jù)；2）有關(guān)任務(wù)完成度的人類偏好數(shù)據(jù)。

這類微調(diào)數(shù)據(jù)集成本高昂且被嚴(yán)格保護(hù)，據(jù)我所知，唯一的公開(kāi)的應(yīng)該只有Lambert在HuggingFace團(tuán)隊(duì)時(shí)發(fā)布的No Robots。

倉(cāng)庫(kù)地址：https://huggingface.co/datasets/HuggingFaceH4/no_robots

人類偏好數(shù)據(jù)很大程度上與特定模型的改進(jìn)有關(guān)。但即使在數(shù)據(jù)可以開(kāi)放的情況下，也不能確定可以將一個(gè)模型的偏好遷移至另一個(gè)模型。

Lambert在HuggingFace時(shí)曾和團(tuán)隊(duì)做過(guò)類似的嘗試，但在小型付費(fèi)數(shù)據(jù)合同上失敗了。

現(xiàn)在，唯一用到人類數(shù)據(jù)的方面就是偏好數(shù)據(jù)。從Llama 2披露的數(shù)據(jù)和其他傳聞來(lái)看，Meta可能在偏好數(shù)據(jù)上花費(fèi)了10M-20M美元，甚至更多。這還僅限于最終發(fā)布的模型，不包括更廣泛的實(shí)驗(yàn)和評(píng)估。

Nemotron則使用大量合成數(shù)據(jù)來(lái)替代人類數(shù)據(jù)，但相對(duì)而言，這個(gè)模型的微調(diào)并不那么出色。

對(duì)開(kāi)放社區(qū)而言，有一個(gè)迫在眉睫的挑戰(zhàn)，但同時(shí)也是機(jī)遇：弄清這類數(shù)據(jù)中的人為干預(yù)的程度，能否用LLM-as-a-Judge或獎(jiǎng)勵(lì)模型等方法代替。

擴(kuò)展RLHF

Llama 3的對(duì)齊負(fù)責(zé)人Thomas Scialom在播客節(jié)目Latent Space上曾說(shuō)道：

RLHF的可擴(kuò)展性要高得多。它成本更低、更容易操作，并且通常會(huì)帶來(lái)更好的性能。

他還表示，自己會(huì)將「100%的對(duì)齊數(shù)據(jù)預(yù)算用于RL階段所需的對(duì)齊數(shù)據(jù)，而不是在指令上花費(fèi)更多時(shí)間。」

開(kāi)源的對(duì)齊工作中大多專注于擴(kuò)展指令微調(diào)（IFT，或稱為 SFT）。IFT容易操作、適用于多種任務(wù)，而且方便與合成數(shù)據(jù)共同使用。

但很明顯，產(chǎn)業(yè)界僅將IFT作為擴(kuò)展RLHF的起點(diǎn)。SFT數(shù)據(jù)主要關(guān)注以前模型未能覆蓋的特定領(lǐng)域，然后在此基礎(chǔ)上擴(kuò)展RLHF。

RLHF是一個(gè)迭代過(guò)程，模型的生成過(guò)程可以讓它繼續(xù)改進(jìn)。Llama 2和 Nemotron論文中詳細(xì)介紹了5輪訓(xùn)練，但我們不知道這個(gè)數(shù)字是否有上限。

Llama 3.1進(jìn)行了6輪偏好數(shù)據(jù)的訓(xùn)練，Llama 2是5輪，Nemotron是4輪，之前還有多輪指令微調(diào)。

對(duì)于人類偏好數(shù)據(jù)而言，進(jìn)行多輪迭代可能主要出于可行性方面的考量：

1. 數(shù)據(jù)從注釋公司分批傳送到實(shí)驗(yàn)室

2. 進(jìn)行多輪小規(guī)模的訓(xùn)練可以降低最終產(chǎn)品交付的風(fēng)險(xiǎn)。與其等待所有數(shù)據(jù)到位后才開(kāi)始訓(xùn)練，不如讓模型逐漸步入正軌

這類現(xiàn)實(shí)因素看起來(lái)無(wú)關(guān)緊要，但往往會(huì)觸發(fā)某種行業(yè)規(guī)范。

下面這張圖片來(lái)自Llama 2論文，記錄了5輪拒絕采樣和PPO相關(guān)的數(shù)據(jù)。

Nemotron還進(jìn)行了2輪SFT微調(diào)和4輪對(duì)齊。其中，RPO是用DPO優(yōu)化器加權(quán)的獎(jiǎng)勵(lì)模型。

類似的迭代RLHF方法可以追溯到Anthropic提出的「憲法人工智能」，但開(kāi)源社區(qū)似乎沒(méi)有大規(guī)模復(fù)現(xiàn)這個(gè)結(jié)果。

目前，學(xué)術(shù)界正在關(guān)注「在線DPO訓(xùn)練」，這在方向上是相似的，但對(duì)各輪之間數(shù)據(jù)沒(méi)有那么關(guān)注。這種方法目前仍需要大量手動(dòng)操作，但一旦實(shí)現(xiàn)流程自動(dòng)化，在線DPO將成為未來(lái)。

事實(shí)上，各個(gè)團(tuán)隊(duì)對(duì)后訓(xùn)練階段的算法選擇不應(yīng)該如此一成不變。DPO和PPO各有優(yōu)劣，前者更容易擴(kuò)展，但PPO啟發(fā)的方法（如在線RL）具有更高的性能上限。

目前這些方案主要出于簡(jiǎn)潔性考量，因?yàn)檫@些團(tuán)隊(duì)仍然相對(duì)較新并且正在構(gòu)建模塊化系統(tǒng)，Llama 3后訓(xùn)練團(tuán)隊(duì)中一名成員的說(shuō)法也證實(shí)了這種具備工程簡(jiǎn)潔性的方法。

Llama 3有一個(gè)簡(jiǎn)單的后訓(xùn)練循環(huán)：拒絕采樣、SFT 和 DPO。這不僅在經(jīng)驗(yàn)層面有最佳性能，還實(shí)現(xiàn)了可復(fù)現(xiàn)性。而且，團(tuán)隊(duì)可以異步探索許多不同的工作流（例如編碼、數(shù)學(xué)），將數(shù)據(jù)匯集到同一個(gè)簡(jiǎn)單的循環(huán)中。

合成數(shù)據(jù)

這種新的RLHF循環(huán)中，很重要的一環(huán)是在大多數(shù)任務(wù)上超越人類能力的合成指令數(shù)據(jù)。

如果可以讓模型有一點(diǎn)點(diǎn)提升、生成更好的指令，那就「重新開(kāi)始」，更新檢查點(diǎn)。

Meta在論文中明確表示，他們「使用405B模型來(lái)提高我們較小模型的后訓(xùn)練質(zhì)量」；谷歌通過(guò)蒸餾出Gemini Flash來(lái)做到這一點(diǎn)，但實(shí)際上大多數(shù)前沿模型可能都包含一些類似步驟。

我聽(tīng)說(shuō)OpenAI正在使用50萬(wàn)億token的數(shù)據(jù)訓(xùn)練下一代模型，其中大部分為合成數(shù)據(jù)。去年有一個(gè)傳言，Anthropic擁有「預(yù)訓(xùn)練規(guī)模的憲法AI語(yǔ)料庫(kù)」，現(xiàn)在看來(lái)這也很合理。

這些AI公司意識(shí)到合成數(shù)據(jù)的重要性應(yīng)該是在12～18個(gè)月之前，當(dāng)他們不再使用模型輸出進(jìn)行自我迭代訓(xùn)練的時(shí)候。但Meta不一樣，因?yàn)槭芤嬗谄渌玫拈_(kāi)放模型。

看看當(dāng)今的后訓(xùn)練就可以清楚知道，合成數(shù)據(jù)造成模型崩潰的問(wèn)題被過(guò)分夸大了。只有在人為設(shè)置的環(huán)境中，丟棄原始數(shù)據(jù)、只留下生成的新數(shù)據(jù)時(shí)，才會(huì)發(fā)生模型崩潰。