成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型RLHF不必非得靠人,谷歌:AI反饋效果一樣好

人工智能
RLHF,即基于人類反饋的強(qiáng)化學(xué)習(xí),無論是ChatGPT還是開源的LLaMA都離不開它。但其中的“H”卻是一大瓶頸,因?yàn)槭占哔|(zhì)量的人類反饋實(shí)在是太難了。那能不能交給AI來做呢?的確有人就這么干了,但能否替代RLHF一直沒有定論,直到Google進(jìn)行了這項(xiàng)研究。

說起現(xiàn)如今訓(xùn)大模型的核心方法,RLHF是繞不開的話題。

RLHF,即基于人類反饋的強(qiáng)化學(xué)習(xí),無論是ChatGPT還是開源的LLaMA都離不開它。

但其中的“H”卻是一大瓶頸,因?yàn)槭占哔|(zhì)量的人類反饋實(shí)在是太難了。

那能不能交給AI來做呢?的確有人就這么干了,但能否替代RLHF一直沒有定論,直到Google進(jìn)行了這項(xiàng)研究。

圖片圖片

在一篇新發(fā)布的arXiv論文中,Google將RLAIF訓(xùn)練出的模型在文本總結(jié)上的表現(xiàn)與RLHF做了比較。

RLAIF用AI來代替RLHF中的人類,完成生成反饋的工作,讓大模型訓(xùn)練不再受制于人類的局限。

在訓(xùn)練后的人類評(píng)價(jià)中,人們對(duì)RLHF和RLAIF訓(xùn)練后的模型生成的答案傾向性幾乎沒有差別。

甚至在一些細(xì)節(jié)上,RLAIF的表現(xiàn)還要優(yōu)于RLHF。

有AI工程師轉(zhuǎn)發(fā)了這篇論文并評(píng)論說,到GPT-5的時(shí)候可能就不再需要人類數(shù)據(jù)標(biāo)注員了。

圖片圖片

在介紹詳細(xì)的評(píng)測(cè)結(jié)果之前,我們不妨先來看看RLAIF的工作流程。

用LLM生成反饋數(shù)據(jù)

其實(shí)RLAIF和RLHF差不多,就是把人換成了AI,從字面上也能看出來。

圖片圖片

所以重點(diǎn)自然而然地來到了生成反饋內(nèi)容上。

研究人員首先讓AI在兩個(gè)答案中進(jìn)行選擇以獲得反饋。

為了避免隨機(jī)性問題,會(huì)進(jìn)行多次選擇,其間還會(huì)對(duì)選項(xiàng)的順序進(jìn)行交換。

其中還用到了思維鏈(CoT)的推理模式,以獲取更好的回答。

此外,為了提高LLM的自我一致性,這一過程并非直接二選一,而是分別給兩個(gè)答案打分,相加為1。

這套流程走下來的prompt和輸出大概是醬嬸兒的:

圖片圖片

舉個(gè)例子:

圖片圖片

有了這些數(shù)據(jù),就可以拿來訓(xùn)練獎(jiǎng)勵(lì)模型,進(jìn)而預(yù)測(cè)出偏好分?jǐn)?shù)了。

接著, 利用訓(xùn)練好的獎(jiǎng)勵(lì)模型,研究人員讓目標(biāo)模型進(jìn)行強(qiáng)化學(xué)習(xí)。

與其他模型常用的PPO(Proximal Policy Optimization)算法不同,RLAIF采用的是更為簡(jiǎn)單有效的修改版A2C(Advantage Actor Critic)算法。

當(dāng)然,也可以不訓(xùn)練獎(jiǎng)勵(lì)模型,直接用AI生成的標(biāo)注數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)。

實(shí)際上,團(tuán)隊(duì)得到的標(biāo)注數(shù)據(jù)集比獎(jiǎng)勵(lì)模型規(guī)模更大也更好用,但考慮這樣消耗的計(jì)算成本太高,還是選擇了獎(jiǎng)勵(lì)模型。

到這里大模型的“課程”就已經(jīng)學(xué)完了,不過要想“畢業(yè)”的話還得再經(jīng)歷一場(chǎng)“考試”才行。

“考試”一共包括下面的三項(xiàng)內(nèi)容:

  • AI Labeler Alignment:AI偏好相對(duì)于人類偏好的精確程度
  • Pairwise Accuracy:訓(xùn)練好的獎(jiǎng)勵(lì)模型與人類偏好數(shù)據(jù)集的匹配程度
  • Win Rate:人類在RLAIF和RLHF生成結(jié)果之間的傾向性

經(jīng)過這樣一番測(cè)試之后,強(qiáng)化學(xué)習(xí)終于大功告成。

那么,“AI教出來的學(xué)生”成績(jī)究竟怎么樣呢?

測(cè)試效果可以與RLHF媲美

研究團(tuán)隊(duì)找來了1200名人員,在對(duì)SFT(基線監(jiān)督微調(diào))、RLHF、RLAIF以及真人給出的答案從優(yōu)質(zhì)到劣質(zhì)進(jìn)行排序。

圖片圖片

以SFT方式作為基線,RLHF和RLAIF的Win Rate均超過了70%,也就是說人類對(duì)這兩種方式的傾向程度是SFT的將近三倍。

雖然RLHF的表現(xiàn)略勝于RLAIF,但兩者的差距并不明顯。

而若以RLHF作為參照,RLAIF的Win Rate則是50%,說明人類對(duì)兩者的傾向程度是一樣的。

圖片圖片

有趣的是,兩種RL訓(xùn)練出的模型給的結(jié)果都遠(yuǎn)遠(yuǎn)勝過了真人直接給出的答案。

RLAIF相對(duì)于真人的Win Rate高達(dá)79%,而RLHF是80%,即傾向性是真人答案的四倍。

此外,在對(duì)輸出內(nèi)容進(jìn)行仔細(xì)評(píng)估之后,研究人員還發(fā)現(xiàn)RLAIF訓(xùn)練出的模型出現(xiàn)幻覺的概率比RLHF更低,邏輯和語法錯(cuò)誤也更少。

One More Thing

不過對(duì)于RLAIF,也有網(wǎng)友發(fā)現(xiàn)了華點(diǎn):

拿來生成反饋的模型不也是用RLHF訓(xùn)練出來的嗎?

圖片圖片

而另一邊,RLHF的過程當(dāng)中,也不能排除有的人在用AI“偷懶”的可能。

圖片圖片

或許“你中有我,我中有你”才是兩種方式測(cè)試結(jié)果這么接近的原因嗎?

論文地址:https://www.arxiv.org/abs/2309.00267

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-09-06 13:17:00

AI數(shù)據(jù)

2023-08-08 10:12:17

谷歌機(jī)器人

2024-08-26 10:01:50

2023-09-05 12:59:33

模型數(shù)據(jù)

2024-04-03 13:50:00

開源模型

2022-09-18 21:25:42

AI模型

2023-12-26 12:07:14

模型訓(xùn)練

2012-12-20 10:17:32

IT運(yùn)維

2023-09-09 12:56:36

2016-11-03 18:51:45

AndroidIOS谷歌

2021-04-23 15:13:16

算法模型技術(shù)

2023-11-06 10:40:47

GPT-4V大模型

2023-03-06 15:24:54

谷歌人才

2023-09-22 11:56:57

模型駕駛

2024-07-03 14:01:42

2025-02-27 10:33:36

2022-02-24 13:59:59

AI智能體研究

2022-07-12 14:56:30

AI模型研究

2023-02-23 15:35:14

人工智能ChatGPT聊天機(jī)器人

2023-05-22 09:19:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品久久久久久久久久妇女 | 国产乱码精品1区2区3区 | www.免费看片.com | 一区二区影院 | 色久五月 | 国产精品成人免费 | 免费成人国产 | 日韩在线欧美 | 日韩av免费在线电影 | 亚洲欧美日韩在线不卡 | 精品国产欧美一区二区三区不卡 | 狠狠爱综合 | 日本亚洲精品成人欧美一区 | a级毛片国产 | 成年人黄色免费视频 | 成人久久久 | 国产成人精品av | 在线观看黄色 | 丁香一区二区 | 羞羞视频网站免费观看 | 国产一区二区三区欧美 | 中文字幕11页 | 一区二区三区四区在线视频 | 久久蜜桃资源一区二区老牛 | 午夜激情在线视频 | 日韩在线中文字幕 | 久久国产欧美日韩精品 | 午夜av免费 | 欧美一区二区三区的 | 久久国色 | 精品1区 | 中文字幕一级毛片 | 亚洲综合在| 干干干日日日 | 免费国产精品久久久久久 | 国产亚洲一区二区精品 | 国产午夜精品一区二区三区嫩草 | 国产精品久久久久av | 国产福利小视频 | 色久电影 | 亚洲国产成人av |