Llama 2打敗GPT-4!Meta讓大模型自我獎勵自迭代,再證合成數據是LLM終局
Llama 2-70B一夜之間打敗GPT-4,讓整個AI社區為之震驚!
甚至,在AlpacaEval 2.0排行榜中,微調后的模型勝率完全碾壓Claude 2、Gemini Pro等模型。
Meta和NYU研究團隊究竟提出了什么秘制配方,才能讓Llama 2-70B超強進化?
正如論文題目所言——「自我獎勵語言模型」,模型生成訓練數據,并評估這些數據的質量,然后用這些數據來自己訓練自己。
簡單來說,最新方法可以讓LLM在迭代訓練過程中不斷自我改進。
論文地址:https://arxiv.org/pdf/2401.10020.pdf
LeCun也轉贊了自家實驗室的研究。
RLAIF已經不是新鮮事了,之前包括Anthropic,谷歌都推出過自己的「AI訓AI」的技術,那么Meta的這項工作和之前的幾家的RLAIF區別在哪里呢?
我們先來了解一下Meta的自我獎勵語言模型的大概框架。
研究團隊開發了一個能夠遵循指令和自我評價回復質量的能力的模型。模型可以生成新的訓練數據,對生成的回復進行質量評分,從而不斷改進自己的輸出。
模型首先根據少量人工標注數據進行預訓練,獲得初始化模型。
然后模型生成新的指令和多個候選回復,并使用LLM-as-a-Judge的提示,讓模型對自己生成的回復打分。
根據打分形成新的訓練數據,繼續訓練模型。
這樣可以迭代訓練,在每次迭代中模型的遵循指令能力和打分能力都會提升。
研究人員從Llama 2 70B預訓練模型開始迭代訓練。
結果顯示在3次迭代中,模型遵循指令的能力有顯著提升,同時獎勵建模能力也在提高,評價結果與人工判斷的相關性更高。
這說明模型迭代過程中,不僅指令遵循能力提高,也更善于對自己生成的回復進行判斷。
迭代第三次的模型在AlpacaEval 2.0基準測試中,就戰勝了Claude 2、Gemini Pro、GPT-4 0613等模型。
Meta的這項工作與谷歌在去年9月發布的RLAIF論文相比,更近一步地使用了一個不斷進化的獎勵模型來不斷迭代訓練模型,而迭代后的模型也確實取得了明顯可見的性能提升。
可以說,Meta又將AI自我迭代大模型的前沿往前推進了一大步。
如何訓練「自我獎勵語言模型」
研究人員的方法首先假設可以訪問基本的預訓練語言模型和少量人工注釋的種子數據。
然后研究人員建立一個模型,讓它同時擁有兩種能力:
- 指令遵循:給出描述用戶請求的提示,能夠生成高質量、有幫助(且無害)的響應。
- 自指令創建:能夠按照示例生成和評估新指令,再添加到自己的訓練集中。
這兩個能力可以為了使模型能夠執行自我對齊,即它們是用于使用人工智能反饋(AIF)迭代訓練自身的組件。
自指令創建包括生成候選響應,然后模型本身判斷其質量——充當自己的獎勵模型,取代外部獎勵模型。
這是通過LLM-as-a-Judge機制實現的:通過將響應評估制定為遵循指令的任務。
這個由模型自行創建的AIF偏好數據被用作訓練集來訓練模型。
整體自我對齊過程是一個不斷迭代過程,通過構建一系列此類模型來進行,目的是每個模型都比上一個模型有所改進。
重要的是,由于模型既可以提高其生成能力,又可以通過相同的生成機制作為自己的獎勵模型,這意味著獎勵模型本身可以通過迭代過程來改進,這就不同于獎勵模型固定不變的傳統方法。
研究人員相信這樣可以提高這些學習模型未來自我改進的潛力上限,消除限制性瓶頸。
初始化
種子指令跟隨數據
研究人員獲得一組人工編寫的(指令提示、響應)一般指令。
他們使用這些示例從預訓練的基礎語言模型開始,用監督微調 (SFT) 的方式進行訓練。
種子LLM-as-a-Judge指令跟隨數據
研究人員假設他們提供了一組種子(評估指令提示、評估結果響應)示例,這些示例也可用于訓練。
雖然這并不是絕對必要的,因為使用IFT數據的模型已經能夠訓練LLM成為judge,而且研究人員表明此類訓練數據可以提供改進的結果。
在這些數據中,輸入提示要求模型評估對特定指令的給定響應的質量。
提供的評估結果響應包括思路推理,然后是最終分數(在研究人員的實驗中,滿分 5 分)。
研究人員為這些提示選擇的格式如下圖2所示。作為LLM執行獎勵模型角色的訓練數據。
這些數據被稱為評估微調(EFT)數據。
研究人員在訓練期間使用這兩個種子數據集。
再用3個步驟來創建自我指令:
-使用研究人員已經訓練好的模型,研究人員可以讓它自我修改自己的訓練集。具體來說,就是為下一次訓練迭代生成額外的訓練數據。
-生成候選響應:然后,對于給定的提示 x,研究人員生成 N 個不同的候選響應 {y, . 。。, y} 。
-評估候選響應:最后,研究人員使用同一模型的LLM-as-a-Judge能力來評估其自己的候選響應,得分為 r∈ [0, 5](見圖 2)。
指令遵循訓練
訓練最初是使用種子 IFT 和 EFT 數據進行的,這與獎勵模型固定的標準實踐不同。然后通過AI(自我)反饋添加附加數據。
AI反饋訓練
執行自指令創建過程后,研究人員可以使用額外的訓練示例來擴充種子數據,研究人員將其稱為 AI 反饋訓練 (AIFT) 數據。
他們嘗試了此類反饋的兩種變體:
偏好對:研究人員構建以下形式的訓練數據(指令提示 x,獲勝響應 y,失敗響應 y)。為了形成獲勝和失敗對,研究人員從 N 個評估的候選答案中選取最高和最低得分的答案。
將這些對可用于通過偏好調整算法進行訓練。
僅正面示例:在此變體中,研究人員遵循其他方法,將模型策劃的(指令提示、響應)附加示例添加到種子集中,以進行監督微調。
整體自對齊算法
迭代訓練
研究人員的整個過程訓練一系列模型。其中每個連續模型t使用由t ? 1模型創建的增強訓練數據。
因此,研究人員將AIFT(M)定義為使用模型M創建的AI反饋訓練數據。
M:基礎預訓練LLM,沒有微調。
M1:用M初始化,然后使用SFT對IFT+EFT種子數據進行微調。
M2:用M1初始化,然后使用DPO用AIFT(M1)數據進行訓練。
M3:用M2初始化,然后使用DPO用AIFT(M2)數據進行訓練。
實驗結果
如文章開始所提到的那張圖中,研究人員將微調后Llama 2-70B三個迭代版本與其他先進模型在AlpacaEval 2.0基準上進行了比較。
結果顯示,第三次迭代后的Llama 2-70B模型打敗了GPT-4 0613、Claude 2、Gemini Pro等模型。
此外,Llama 2-70B每個迭代版本比較,改進幾乎保持線性。
研究人員通過各種指標來評估作為評估者的大模型,這些指標衡量與保留的人類偏好數據的一致性。
自我獎勵迭代2(模型M2),使用從其先前迭代M1派生的自我獎勵模型進行訓練,其性能優于迭代1(M1)。
而M1本身也優于僅利用指令微調(IFT)數據訓練的標準SFT基準模型。迭代3(模型 M3)比迭代2有了進一步提高。
在這個框架之中,研究人員發現,獎勵模型的性能也能隨著迭代不斷提高。
模型M2使用來自M1的獎勵模型進行訓練,與M1相比,在所有五個指標上都體現出了更好的性能。
例如,成對準確(pairwise accuracy)率從78.7%提高到 80.4%。M3繼續進一步改進了其中幾個指標。
研究人員猜測,是由于模型在指令遵循方面變得更好,因此它在LLM-as-a-Judge的任務方面也有所改進。
網友:讓開源再次偉大
Meta和NYU的最新研究讓許多人驚呼「讓開源再次偉大」。
俄亥俄州立大學計算機工程助理教授Yu Su表示,2024年才剛剛開始,我們已經從合成數據中看到了許多重要成果。我個人認為,這不僅僅是「數據增強」的改頭換面。以前的數據增強工作在很大程度上依賴于「人類工程」,而現在更像是LLM的「想象力」...
越來越多的研究表明,「人工訓練數據耗盡」不會阻止LLM的發展。
這是DPO的「Attention Is All You Need」的時刻。
還有人表示「令人驚訝的是,每次迭代的改進幾乎保持線性,僅在3次迭代之后,就已經接近GPT-4級別」。