成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訓練14分鐘,超越Alpaca!華人團隊發布「飛天羊駝」,基于LLM的數據過濾新范式

人工智能 新聞
最近,來自馬里蘭、三星和南加大的研究人員提出了一種利用LLM自動識別和刪除低質量數據的數據選擇策略——AlpaGasus,不僅在測試中優于原始的Alpaca,而且訓練速度更快。

近期,指令微調(IFT)已經被作為預訓練大語言模型(LLMs)獲得指令遵循能力的關鍵訓練階段。

然而,廣泛使用的IFT數據集(例如,Alpaca的52k數據)卻包含許多質量低下的實例,這些實例帶有錯誤或無關的回應,對IFT產生了誤導和不利影響。

先前的處理方法主要依靠人工篩選這些低質量數據,但這既費時費力,又難以擴展。

因此,如何以高效、自動化的方式過濾出這些低質量數據,成為提升LLM微調效果的關鍵所在。

現在,來自馬里蘭大學,三星和南加大的研究人員提出了一種有效的數據過濾策略,使用強大的LLM(例如,ChatGPT)自動識別和移除低質量數據,以改善指令微調(IFT)的效果。

圖片圖片

論文地址:https://arxiv.org/abs/2307.08701

項目地址:https://lichang-chen.github.io/AlpaGasus/

在這項工作中,研究者提出的模型AlpaGasus,使用從52k Alpaca數據中過濾出來的9k高質量數據進行微調。

AlpaGasus在多個測試集上顯著優于原始的Alpaca,其13B版本甚至在測試任務上的表現超過了90%的教師模型(即,Text-Davinci-003)。

并且,AlpaGasus在訓練時間上也實現了5.7倍的提升,將7B版本的訓練時間從80分鐘縮短到了14分鐘。

更少數據,訓練更強「羊駝」

具體來說,研究者利用強大的LLM(如ChatGPT)自動評估每個(指令,輸入,回應)元組的質量,對輸入的各個維度如Accurac、Helpfulness進行打分,并過濾掉分數低于閾值的數據。

打分的prompt如下:

圖片圖片

方法的pipeline如下:

圖片

實驗部分

在實驗部分,作者使用了一組全面且多樣化的測試集對他們提出的語言模型AlpaGasus進行了評估。

這個全面的評估集包含了來自Self-instruct、Vicuna、WizardLM和Koala的測試集。每一個測試集都提供了不同的指令,減少了評估偏差,提供了對AlpaGasus性能的全面概述。

作者們將AlpaGasus與四種最近的LLMs進行了比較:Alpaca、Text-Davinci-003、ChatGPT和Claude。

性能評估

對于性能的評估,作者們采用了GPT-4作為裁判來評估和比較不同模型對一組指令的回復。

為了解決GPT-4裁判的位置偏差,作者們對兩種順序(即,將AlpaGasus的回復置于基線模型的回復之前/之后)都進行了嘗試,最終得分基于兩次得分的「勝-平-負」準則。

結果分析

在結果部分,作者強調——數據的質量比數量更重要。

這一點通過AlpaGasus-9k與AlpaGasus-52k在所有測試集上的優異表現得到了證明,盡管前者使用的訓練數據明顯少于后者。

作者還將AlpaGasus-9k和使用從Alpaca數據集中隨機挑選出9k數據訓練的模型進行了對比。

為了研究閾值對IFT的影響,作者比較了AlpaGasus和在應用較低閾值(4.0)選出的39k數據上微調的LLaMA。

結果顯示,只用9k高質量數據訓練的模型會顯著好于用39k質量一般數據訓練的模型。

消融實驗部分,作者從選出訓練AlpaGasus的9k數據中隨機抽取3k和6k數據,并使用相同的訓練腳本從LLaMA微調兩個AlpaGasus的變體。

在所有四個測試集上,AlpaGasus在9k數據上的訓練表現最好,這表明更多的高質量數據會導致更好的IFT模型。

細節評估

此外,作者還對AlpaGasus模型在WizardLM和Vicuna測試集的各項技能/類別進行了細致的評估。

首先,作者比較了AlpaGasus-7B(9k)和Alpaca-7B(52k)在WizardLM測試集上的表現。

結果顯示,AlpaGasus在29項技能中的22項上表現得比Alpaca好或相同,但在剩余的7項技能,例如編程(如代碼生成)方面,AlpaGasus并未表現出優勢。

作者發現,這可能是由于在數據選擇和過濾過程中,沒有指定技能類別的比例,導致與編程相關的數據被過濾的比例(88.16%)比平均過濾比例(82.25%)高很多。因此,這導致編程技能比其他技能弱。

也就是說,在IFT中,保持訓練數據在不同類別之間的多樣性和平衡性非常重要。

接下來,作者進一步比較了AlpaGasus-13B(9k)和Alpaga-13B(52k)在WizardLM測試集上的表現。

其中,結果與7B模型的觀察結果一致,AlpaGasus在大多數技能上仍然優于Alpaca。

這表明,即使模型大小增加,數據質量仍然優于數據量。

在對Vicuna測試集的分析中,AlpaGasus-7B在大多數類別上,包括反事實、角色扮演、知識和通用等方面,都優于Alpaca-7B。而且,當基模型規模擴大時,這一結論仍然成立。

然后,作者比較了AlpaGasus、text-Davinci-003、ChatGPT和Claude。結果顯示,AlpaGasus-13B可以達到其教師模型text-Davinci-003 (text-Davinci-003被用來生成Alpaca-52k指令數據) 的90%的能力.

成本節約

在成本節約部分,作者比較了AlpaGasus和Alpaca的訓練成本,考慮到在AWS上所需的計算費用。

對于7B模型,使用9k數據的AlpaGasus的訓練成本為4.78美元,使用52k數據的Alpaca的訓練成本為27.31美元。

對于13B模型,使用9k數據的AlpaGasus的訓練成本為40.96美元,而使用52k數據的Alpaca的訓練成本為225.28美元。

這顯示出,作者的數據選擇策略在模型規模擴大時,可以帶來更顯著的訓練成本節約。

總結

本文提出的數據過濾方法在可擴展性和自動化方面表現出顯著的優勢,證明了精心管理訓練數據質量可以帶來IFT性能的顯著提升以及計算成本的大幅節省。

數據選擇和評估策略也可以廣泛應用于其他的指令微調數據集和LLMs,為大語言模型的實際部署開辟了新的研究方向。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-02 06:30:58

ChatGPTGPT-3.5

2024-04-11 07:10:59

大語言模型AI人工智能

2025-01-06 07:05:00

2025-06-13 09:29:51

2023-06-15 14:00:00

研究模型

2024-01-29 09:40:00

AI訓練

2025-03-31 08:15:00

LLM大型語言模型人工智能

2023-05-22 09:28:30

模型AI

2023-10-12 12:13:16

AI訓練

2023-09-17 17:51:43

Android 14

2018-03-23 11:33:56

協同過濾程序算法

2009-11-05 10:55:22

Visual Stud

2013-12-11 10:00:14

C++新特性C

2016-10-28 14:34:26

MacBook Pro蘋果升級

2015-11-17 16:22:22

桌面虛擬化深信服

2023-09-26 22:12:13

數據倉庫Doris

2013-02-26 09:35:35

IBM數據分析算法

2020-08-28 13:02:17

布隆過濾器算法

2015-09-18 19:38:01

BlackHatSQLChop

2012-06-28 10:26:51

Silverlight
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩成人在线 | 欧美性生活一区二区三区 | 欧美日韩亚洲一区 | 新疆少妇videos高潮 | 九九亚洲精品 | 国产精品久久久久久久7777 | 久久久亚洲综合 | 欧美精品一区二区三区视频 | 日本一二三区电影 | 日韩精品一区二区三区在线观看 | 国产精品成人国产乱一区 | 成人午夜影院 | 欧美a区| 国产粉嫩尤物极品99综合精品 | 中文字幕国产精品 | 婷婷福利视频导航 | 精品视频在线播放 | 日本中文字幕日韩精品免费 | 亚洲精品一区二区三区四区高清 | 欧美一级欧美三级在线观看 | 精品亚洲视频在线 | 国产福利资源在线 | 欧美国产日韩精品 | 三级视频在线观看电影 | 欧美一级片在线观看 | 成年视频在线观看福利资源 | 国产欧美精品区一区二区三区 | 久久久久国产一区二区三区不卡 | 人人干人人超 | 国产综合久久久久久鬼色 | 翔田千里一区二区 | 欧美二区三区 | 蜜桃视频在线观看免费视频网站www | 午夜男人的天堂 | 99re| 亚洲精品乱码久久久久久蜜桃91 | 一区二区三区久久久 | 日日干夜夜操 | 2019精品手机国产品在线 | 色综合一区二区三区 | 国产精品国产三级国产aⅴ无密码 |