成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不用RLHF,匹敵GPT-4!Meta重磅發(fā)布LIMA 65B,1000個樣本性能飛升,LeCun轉贊

人工智能
RLHF并沒有那么重要!Meta最新650億參數(shù)模型LIMA,僅用1000個樣本,實現(xiàn)與GPT-4相匹敵的性能。

人人都知,讓ChatGPT稱霸天下的秘密武器,就是人類反饋強化學習(RLHF)。

而現(xiàn)在,Meta AI等機構的爆火研究LIMA直接打破這一規(guī)則,直言RLHF并沒有那么重要!

論文一出,直接在AI圈炸了鍋!

就連LeCun忍不住發(fā)推炫一番:LIMA:LLaMa-65B+1000監(jiān)督樣本=GPT-4/Bard級別的性能。

圖片

正如標題所稱,LIMA是「Less is More for Alignment」,暗示著一個強大的預訓練AI模型,通過幾個樣本就足以實現(xiàn)高質量的結果。

而LIMA僅在1000個精心挑選的樣本上微調(diào)LLaMa-65B,而且無需RLHF,就實現(xiàn)了與GPT-4和Bard相媲美的性能。

圖片

論文地址:https://arxiv.org/abs/2305.11206

論文中,研究人員將這一突破稱為「表面對齊假設」(Superficial Alignment Hypothesis)。

實驗證明了,大語言模型在預訓練階段就已習得大部分知識,僅用有限的指令微調(diào)數(shù)據(jù),足以教會模型產(chǎn)生高質量的內(nèi)容。

高質量的數(shù)據(jù)就可以克服小樣本量?訓練這樣模型的成本是多少,這是否意味著小型LLM玩家可以與OpenAI/谷歌競爭?

圖片

還有網(wǎng)友質疑,GPT-4在57%情況中擊敗LIMA,還能說性能相當?

圖片

RLHF并非王者?

大語言模型經(jīng)過預訓練,能在大規(guī)模上預測下一個token,讓其學習通用表征。這些表征可以轉移到幾乎任何語言理解或生成任務中。

為了實現(xiàn)這種轉移,人們已經(jīng)提出各種「對齊」語言模型的方法,主要側重在百萬級token上進行指令調(diào)優(yōu)。

而最近采用較多的是,從人類反饋中進行強化學習(RLHF)。這些反饋便是在與人類標注者進行數(shù)百萬次互動中收集的。

ChatGPT令人深刻的表現(xiàn),主要歸功于RLHF。根據(jù)OpenAI的思路,RLHF分為三步。

圖片

然而,現(xiàn)有的對齊方法代價是高昂的,需要大量算力,以及專門的數(shù)據(jù)才能實現(xiàn)像ChatGPT一樣的性能。

Meta AI卻要逆行其道,證明了,一個預訓練語言模型可以通過簡單地微調(diào)精心挑選的1000個樣本,就能實現(xiàn)強大的性能。

在此,研究人員提出「表面對齊假設」(Superficial Alignment Hypothesis),假設「對齊」可以是一個簡單的過程,。

在這個過程中,模型的知識和能力幾乎完全是在預訓練期間學習的,而「對齊」只告訴模型學習與用戶交互的風格或格式

圖片

為了驗證這個假設,Meta等研究者挑選了1000個近似于真實用戶提示,以及高質量響應的樣本。

他們從其他研究論文、WikiHow、StackExchange和Reddit等來源進行手動挑選,訓練數(shù)據(jù)的總量大約是750,000個token。

圖片

訓練提示(輸入)、響應(輸出)以及測試提示的來源

此外,研究者手動編寫了250個提示和響應的樣本,同時對任務的多樣性進行了優(yōu)化。

最后,研究人員對預訓練LLaMa 65B模型在1000個樣本集上進行微調(diào),并進行了人類評估。

評估結果

Meta將LIMA與5個模型基準進行了比較:(在2023年4月期間,對所有基準的響應進行了采樣)

Alpaca 65B——利用52,000個樣本對LLaMa 65B微調(diào)后得到的大模型

DaVinci003——基于RLHF訓練的大語言模型

Bard——基于谷歌的PaLM模型

Claude——通過強化學習Constitutional AI訓練的52B參數(shù)模型

GPT-4——目前使用RLHF訓練的最強的模型

為了比較LIMA和其他SOTA模型,Meta為每個測試提示生成一個單一的響應。

然后,要求人類參與者將LIMA的輸出與每個基準進行比較,并標記他們更喜歡哪一個。

在人類偏好研究中,盡管Alpaca 65B的訓練數(shù)據(jù)量是LIMA的52倍,但它產(chǎn)生的輸出往往比LIMA的不如人意。

圖片

讓人大跌眼鏡的是,DaVinci003也是同樣的情況,雖然程度較小。該模型使用了RLHF進行訓練,這本應是一種更優(yōu)越的對齊方法。

而Bard在42%的時間中,其產(chǎn)生的回答優(yōu)于LIMA。這也意味著,剩下的58%時間里,LIMA的響應至少和Bard一樣優(yōu)秀。

最后,研究者發(fā)現(xiàn),雖然Claude和GPT-4通常表現(xiàn)得比LIMA更好,但在一些情況下,LIMA實際上能產(chǎn)生更好的回答。

另外,諷刺的是,在GPT-4的偏好研究中,有19%的時間,GPT-4更喜歡LIMA的輸出。

圖片

「表面對齊假設」

Meta將這一發(fā)現(xiàn)定義為「表面對齊假設」(Superficial Alignment Hypothesis)。

它表明,所謂預訓練后的對齊階段,主要是讓模型學會一種特定的風格或格式,這種風格或格式在與用戶交互時可以被模型回憶起來。

因此,「微調(diào)」更多是關于風格,而不是實質。

LIMA的結果表明,實際上,利用簡單的方法就可以解決對齊和微調(diào)AI模型這類復雜問題。

這與諸如OpenAI的RLHF那些,特別繁瑣和復雜的微調(diào)過程,形成了鮮明的對比。

不過,LIMA也不是萬能的。Meta認為,該方法存在兩個明顯的局限:

第一,用高質量的示例構建數(shù)據(jù)集是一種非常具有挑戰(zhàn)性的方法,很難擴展。

第二,LIMA并不像已經(jīng)有產(chǎn)品的模型那樣強大,比如GPT-4。

團隊表示,雖然LIMA的生成結果,在大部分情況下質量都很高。但一個「對抗性的提示」或一個「不走運的樣本」,依然會讓模型產(chǎn)生不理想的答案。

Yann LeCun對GPT-4和類似模型背后努力的相對貶值采取了務實的看法。

他將大型語言模型看作是近期的一個元素,至少在中期內(nèi)不會「在沒有重大變化」的情況下發(fā)揮作用。

以上,主要評估是根據(jù)最先進的模型對LIMA進行評估,但需要明確的是,其中一些模型實際上已經(jīng)在訓練期間使用了數(shù)百萬真實用戶的提示。

對此,研究人員通過手動分析50個隨機示例來進行絕對的評估。

并將每個示例標記成3個類別:Fail,響應不符合提示符的要求;Pass,響應符合;Excellent,對提示提供了優(yōu)秀的響應。

實驗結果顯示,50%的LIMA回答被認為是優(yōu)秀的,它能夠遵循所有的50個分析提示中的44個。

圖片

如下,LIMA針對育兒建議和生成食譜的示例進行的輸出。

圖片


另外,一個僅在1000個樣本上微調(diào)的模型在多輪對話中表現(xiàn)又如何?

在零樣本上,LIMA的響應出奇地連貫,并引用了前面對話的信息。在10次對話中,LIMA有3次未能遵循提示。

為了提高對話能力,研究人員收集了30個多輪對話。其中10個是由作者手動編寫,20個來自Stack Exchange,并根據(jù)助手風格進行編輯。

研究者使用組合的1,030個示例對預訓練模型進行微調(diào),得到一個新版本的LIMA,并針對相同的提示進行了10次實時對話。

實驗發(fā)現(xiàn)加入這30個示例后生成質量顯著提升,優(yōu)質響應比例從45.2%提高到76.1%!

圖片

LIMA如何以「少」勝「多」

團隊通過消融實驗,研究了訓練數(shù)據(jù)多樣性、質量和數(shù)量的影響。

Meta發(fā)現(xiàn),為了對齊目的,提高輸入多樣性和輸出質量有可測量的正面效應,而單獨增加數(shù)量卻沒有。

實驗設置

團隊在各種數(shù)據(jù)集上微調(diào)了一個擁有70億參數(shù)的LLaMa模型,并控制了相同的超參數(shù)。

團隊對每個測試集提示抽取5個回應,并通過讓ChatGPT(GPT-3.5 Turbo)在1-6的Likert量表上評級回應的幫助性來評估回應質量。

多樣性

為了測試提示多樣性的影響,同時控制質量和數(shù)量,團隊比較了在質量過濾后的Stack Exchange數(shù)據(jù)和wikiHow數(shù)據(jù)上的訓練效果。

圖5顯示,更多樣的Stack Exchange數(shù)據(jù)顯著提升了模型的性能。

質量

為了測試響應質量的影響,團隊從Stack Exchange抽取了2000個沒有任何質量或風格過濾的示例,并比較了在這個數(shù)據(jù)集和過濾后的數(shù)據(jù)集上訓練的模型。

圖5顯示,在過濾和未過濾的數(shù)據(jù)源上訓練的模型之間存在著0.5點的差異。

圖片

數(shù)量

在眾多機器學習設置中,都會采用增加示例數(shù)量的策略,來提升性能。

為了測試其影響,團隊從Stack Exchange中抽取了呈指數(shù)增長的訓練集。

但實際上,如圖6所示,數(shù)據(jù)翻倍的訓練集并未改善響應質量。

如此一來也暗示了,對齊的規(guī)模法則不必然只受數(shù)量影響,而更可能是在保持高質量響應的同時,提升提示的多樣性。

圖片

作者介紹

Chunting Zhou是Meta AI的一名研究科學家。

2022年5月,她在卡內(nèi)基梅隆大學語言技術研究所獲得博士學位,在那里從事自然語言處理工作,導師是Graham Neubig。Zhou的主要研究興趣在于自然語言處理和機器學習的交叉領域,并對開發(fā)對分布變化具有魯棒性的方法感興趣,目的是學習模型能夠在各種群體中表現(xiàn)統(tǒng)一。

此外,Zhou還研究生成模型,及其在自然語言處理任務中的應用。

圖片

參考資料:

https://arxiv.org/abs/2305.11206

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-01-18 13:38:00

AI數(shù)據(jù)

2023-04-10 09:23:36

模型AI

2023-09-11 15:57:16

人工智能模型GPT-4

2024-06-28 12:31:22

2023-06-19 08:19:50

2023-11-01 19:03:58

GPT-4

2024-04-19 10:32:08

2025-04-16 09:35:03

2023-10-31 15:26:02

阿里云通義千問

2023-08-14 08:04:13

2024-02-07 12:13:03

AI模型

2023-10-11 13:09:09

OpenAI模型GPT-4

2023-11-26 17:14:05

2023-04-04 09:09:10

GPT-4編程程序員

2024-04-19 14:52:13

MetaGPT-4模型

2025-05-30 07:40:56

2023-03-16 17:28:59

技術AI

2023-03-15 07:49:57

GPT-4ChatGPT

2023-07-12 16:10:48

人工智能

2024-06-05 08:29:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.日韩| 国产精品视频免费看 | 日韩欧美国产精品一区二区三区 | 91免费在线| 亚洲一区 中文字幕 | 在线视频 中文字幕 | 精品成人 | 美日韩免费视频 | 国产欧美一区二区三区在线看蜜臀 | 99久久精品免费看国产免费软件 | 男女视频网站 | 99久久婷婷国产综合精品 | 国产美女精品 | 国产日韩电影 | 亚洲精品一区二区另类图片 | 国产视频三区 | 一区二区三区中文字幕 | 欧美一区二区三区四区视频 | 亚洲综合激情 | 国产精品久久久久久婷婷天堂 | 91一区二区三区在线观看 | 成人免费视频网站在线观看 | 欧美精品日韩精品 | 成人精品一区二区三区 | 亚洲精品福利视频 | 户外露出一区二区三区 | 中文字幕免费在线观看 | 羞羞视频免费观 | 国产精品国产精品国产专区不片 | 夜夜摸天天操 | 国产精品视频一二三区 | 久久精品成人 | 色天堂影院 | 国产激情福利 | 九色91视频| 狠狠干网| 免费观看成人av | www.中文字幕.com | 久久99精品国产 | 成人午夜免费视频 | 日韩在线视频免费观看 |