訓練14分鐘,超越Alpaca!華人團隊發布「飛天羊駝」,基于LLM的數據過濾新范式
近期,指令微調(IFT)已經被作為預訓練大語言模型(LLMs)獲得指令遵循能力的關鍵訓練階段。
然而,廣泛使用的IFT數據集(例如,Alpaca的52k數據)卻包含許多質量低下的實例,這些實例帶有錯誤或無關的回應,對IFT產生了誤導和不利影響。
先前的處理方法主要依靠人工篩選這些低質量數據,但這既費時費力,又難以擴展。
因此,如何以高效、自動化的方式過濾出這些低質量數據,成為提升LLM微調效果的關鍵所在。
現在,來自馬里蘭大學,三星和南加大的研究人員提出了一種有效的數據過濾策略,使用強大的LLM(例如,ChatGPT)自動識別和移除低質量數據,以改善指令微調(IFT)的效果。
圖片
論文地址:https://arxiv.org/abs/2307.08701
項目地址:https://lichang-chen.github.io/AlpaGasus/
在這項工作中,研究者提出的模型AlpaGasus,使用從52k Alpaca數據中過濾出來的9k高質量數據進行微調。
AlpaGasus在多個測試集上顯著優于原始的Alpaca,其13B版本甚至在測試任務上的表現超過了90%的教師模型(即,Text-Davinci-003)。
并且,AlpaGasus在訓練時間上也實現了5.7倍的提升,將7B版本的訓練時間從80分鐘縮短到了14分鐘。
更少數據,訓練更強「羊駝」
具體來說,研究者利用強大的LLM(如ChatGPT)自動評估每個(指令,輸入,回應)元組的質量,對輸入的各個維度如Accurac、Helpfulness進行打分,并過濾掉分數低于閾值的數據。
打分的prompt如下:
圖片
方法的pipeline如下:
實驗部分
在實驗部分,作者使用了一組全面且多樣化的測試集對他們提出的語言模型AlpaGasus進行了評估。
這個全面的評估集包含了來自Self-instruct、Vicuna、WizardLM和Koala的測試集。每一個測試集都提供了不同的指令,減少了評估偏差,提供了對AlpaGasus性能的全面概述。
作者們將AlpaGasus與四種最近的LLMs進行了比較:Alpaca、Text-Davinci-003、ChatGPT和Claude。
性能評估
對于性能的評估,作者們采用了GPT-4作為裁判來評估和比較不同模型對一組指令的回復。
為了解決GPT-4裁判的位置偏差,作者們對兩種順序(即,將AlpaGasus的回復置于基線模型的回復之前/之后)都進行了嘗試,最終得分基于兩次得分的「勝-平-負」準則。
結果分析
在結果部分,作者強調——數據的質量比數量更重要。
這一點通過AlpaGasus-9k與AlpaGasus-52k在所有測試集上的優異表現得到了證明,盡管前者使用的訓練數據明顯少于后者。
作者還將AlpaGasus-9k和使用從Alpaca數據集中隨機挑選出9k數據訓練的模型進行了對比。
為了研究閾值對IFT的影響,作者比較了AlpaGasus和在應用較低閾值(4.0)選出的39k數據上微調的LLaMA。
結果顯示,只用9k高質量數據訓練的模型會顯著好于用39k質量一般數據訓練的模型。
消融實驗部分,作者從選出訓練AlpaGasus的9k數據中隨機抽取3k和6k數據,并使用相同的訓練腳本從LLaMA微調兩個AlpaGasus的變體。
在所有四個測試集上,AlpaGasus在9k數據上的訓練表現最好,這表明更多的高質量數據會導致更好的IFT模型。
細節評估
此外,作者還對AlpaGasus模型在WizardLM和Vicuna測試集的各項技能/類別進行了細致的評估。
首先,作者比較了AlpaGasus-7B(9k)和Alpaca-7B(52k)在WizardLM測試集上的表現。
結果顯示,AlpaGasus在29項技能中的22項上表現得比Alpaca好或相同,但在剩余的7項技能,例如編程(如代碼生成)方面,AlpaGasus并未表現出優勢。
作者發現,這可能是由于在數據選擇和過濾過程中,沒有指定技能類別的比例,導致與編程相關的數據被過濾的比例(88.16%)比平均過濾比例(82.25%)高很多。因此,這導致編程技能比其他技能弱。
也就是說,在IFT中,保持訓練數據在不同類別之間的多樣性和平衡性非常重要。
接下來,作者進一步比較了AlpaGasus-13B(9k)和Alpaga-13B(52k)在WizardLM測試集上的表現。
其中,結果與7B模型的觀察結果一致,AlpaGasus在大多數技能上仍然優于Alpaca。
這表明,即使模型大小增加,數據質量仍然優于數據量。
在對Vicuna測試集的分析中,AlpaGasus-7B在大多數類別上,包括反事實、角色扮演、知識和通用等方面,都優于Alpaca-7B。而且,當基模型規模擴大時,這一結論仍然成立。
然后,作者比較了AlpaGasus、text-Davinci-003、ChatGPT和Claude。結果顯示,AlpaGasus-13B可以達到其教師模型text-Davinci-003 (text-Davinci-003被用來生成Alpaca-52k指令數據) 的90%的能力.
成本節約
在成本節約部分,作者比較了AlpaGasus和Alpaca的訓練成本,考慮到在AWS上所需的計算費用。
對于7B模型,使用9k數據的AlpaGasus的訓練成本為4.78美元,使用52k數據的Alpaca的訓練成本為27.31美元。
對于13B模型,使用9k數據的AlpaGasus的訓練成本為40.96美元,而使用52k數據的Alpaca的訓練成本為225.28美元。
這顯示出,作者的數據選擇策略在模型規模擴大時,可以帶來更顯著的訓練成本節約。
總結
本文提出的數據過濾方法在可擴展性和自動化方面表現出顯著的優勢,證明了精心管理訓練數據質量可以帶來IFT性能的顯著提升以及計算成本的大幅節省。
數據選擇和評估策略也可以廣泛應用于其他的指令微調數據集和LLMs,為大語言模型的實際部署開辟了新的研究方向。