成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4批評(píng)GPT-4實(shí)現(xiàn)「自我提升」!OpenAI前超級(jí)對(duì)齊團(tuán)隊(duì)又一力作被公開(kāi)

人工智能 新聞
今天,OpenAI悄悄在博客上發(fā)布了一篇新論文——CriticGPT,而這也是前任超級(jí)對(duì)齊團(tuán)隊(duì)的「遺作」之一。CriticGPT同樣基于GPT-4訓(xùn)練,但目的卻是用來(lái)指正GPT-4的輸出錯(cuò)誤,實(shí)現(xiàn)「自我批評(píng)」。

OpenAI最近的拖延癥狀逐漸嚴(yán)重,不僅GPT-5遙遙無(wú)期,前幾天還宣布GPG-4o的語(yǔ)音功能將推遲一個(gè)月發(fā)布。

或許是為了緩解廣大網(wǎng)友的熱切期待,OpenAI在今天放出了新模型CriticGPT,相當(dāng)于GPT-4的「拐杖」。

圖片

我們訓(xùn)練了一個(gè)模型CriticGPT,來(lái)捕獲GPT-4生成代碼中的錯(cuò)誤。我們開(kāi)始將此類(lèi)模型集成到RLHF對(duì)齊管道中,以幫助人類(lèi)監(jiān)督AI執(zhí)行困難的任務(wù)。

值得注意的是,CriticGPT依舊是用GPT-4模型訓(xùn)練的,但被用于給GPT-4生成的代碼「捉蟲(chóng)」,這似乎有點(diǎn)「自我閉環(huán)」的意思?

推特網(wǎng)友迅速質(zhì)疑,「我用石頭摧毀石頭」,矛盾得有點(diǎn)好笑。

圖片

但也有人從另一個(gè)角度發(fā)現(xiàn)了華點(diǎn):這難道就是模型自我提升的開(kāi)始?

圖片

官方發(fā)布的推文和博客中還沒(méi)有提及CriticGPT何時(shí)會(huì)集成到ChatGPT中,但技術(shù)文章已經(jīng)發(fā)布,而且又是一篇離職人員的遺留作品——由超級(jí)對(duì)齊的scalable oversight團(tuán)隊(duì)共同完成,作者署名包含Jan Leike。

圖片

論文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

那就來(lái)仔細(xì)看看,讓GPT-4「自我提升」的結(jié)果究竟如何?

GPT-4自己批自己

RLHF全稱(chēng)為Reinforcement Learning from Human Feedback,是包括ChatGPT在內(nèi)的很多LLM常用的對(duì)齊方法。人類(lèi)AI訓(xùn)練師們會(huì)收集模型對(duì)同一個(gè)問(wèn)題的不同響應(yīng)并進(jìn)行評(píng)分,以此改進(jìn)模型。

隨著ChatGPT的響應(yīng)變得更加準(zhǔn)確,它犯的錯(cuò)誤也會(huì)更微妙、讓人類(lèi)訓(xùn)練師更難察覺(jué),因而降低了RLHF的有效性。

事實(shí)上,這也是RLHF的根本限制,隨著模型逐漸進(jìn)化到比任何提供反饋的專(zhuān)家都更有知識(shí),基于人類(lèi)的評(píng)價(jià)來(lái)調(diào)整模型就會(huì)越來(lái)越困難。

因此,OpenAI的「可擴(kuò)展監(jiān)督」團(tuán)隊(duì)想到了跳出RLHF的框架,干脆訓(xùn)練模型為ChatGPT撰寫(xiě)評(píng)論,糾正輸出結(jié)果中不準(zhǔn)確的地方。

圖片

這種方法似乎取代了RLHF,但好像又沒(méi)取代——因?yàn)橛?xùn)練CriticGPT的過(guò)程,仍然采用了RLHF。

核心思想非常簡(jiǎn)潔:CriticGPT依舊是自回歸模型。標(biāo)注者先向ChatGPT的響應(yīng)輸出中人為注入一些微妙的錯(cuò)誤,CriticGPT針對(duì)這些有錯(cuò)誤的答案生成批評(píng)意見(jiàn),之后再由人類(lèi)訓(xùn)練師為批評(píng)意見(jiàn)進(jìn)行打分排名。

圖片

CriticGPT訓(xùn)練流程

RLHF的訓(xùn)練過(guò)程與ChatGPT類(lèi)似,具體如下:

  1. 為數(shù)據(jù)集中每個(gè)問(wèn)題和答案采樣CriticGPT生成的批評(píng)意見(jiàn)
  2. 人類(lèi)評(píng)估者對(duì)其各個(gè)屬性及總體質(zhì)量進(jìn)行評(píng)分
  3. 訓(xùn)練獎(jiǎng)勵(lì)模型用于預(yù)測(cè)人類(lèi)對(duì)模型輸出的整體質(zhì)量排名
  4. 使用PPO優(yōu)化獎(jiǎng)勵(lì)模型
  5. 應(yīng)用一種創(chuàng)新的推理時(shí)采樣策略:強(qiáng)制采樣束搜索(FSBS)

大部分的訓(xùn)練數(shù)據(jù)都來(lái)自人類(lèi)篡改GPT答案的這個(gè)過(guò)程,但也包含少部分未經(jīng)修飾的原始答案。

為什么一定要人為向ChatGPT的響應(yīng)輸出中注入bug?不能直接篩選出有bug的答案嗎?

論文中提出,使用原始、未經(jīng)修飾的答案會(huì)存在如下幾個(gè)問(wèn)題:

  • 許多答案不會(huì)包含嚴(yán)重問(wèn)題,進(jìn)而降低了數(shù)據(jù)對(duì)于改進(jìn)批評(píng)意見(jiàn)的價(jià)值
  • 如果無(wú)法控制錯(cuò)誤類(lèi)型,CriticGPT會(huì)輸出自由形式且模糊不清的批評(píng)意見(jiàn),難以驗(yàn)證其正確性
  • 人類(lèi)也很難發(fā)現(xiàn)CriticGPT遺漏的重要問(wèn)題
  • 偏好率可能受到許多風(fēng)格因素的影響,并會(huì)高估模型性能

需要注意的是,人類(lèi)已經(jīng)檢測(cè)到有bug的模型輸出,本身就說(shuō)明它們更容易被人發(fā)現(xiàn)!

篡改方法最重要的優(yōu)點(diǎn)是制造出了高質(zhì)量、難以發(fā)現(xiàn)的錯(cuò)誤,而且平均而言更嚴(yán)重。知道了哪里有預(yù)先插入的bug,人類(lèi)訓(xùn)練師也更容易區(qū)分出那些不夠全面、遺漏bug的批評(píng)。

團(tuán)隊(duì)有意地保證了這些人為篡改的復(fù)雜和微妙。他們訓(xùn)練了一個(gè)二元判別器預(yù)測(cè)代碼是否被篡改,發(fā)現(xiàn)較小的模型并沒(méi)有較好的分辨能力(圖13),以此驗(yàn)證了篡改代碼的質(zhì)量。

圖片

人類(lèi)評(píng)估CriticGPT的批評(píng)意見(jiàn)時(shí),從以下幾個(gè)維度給出評(píng)分和排名:

  • 是否全面 ,即沒(méi)有遺漏任何明顯或嚴(yán)重的問(wèn)題
  • 是否捕獲到了之前插入的特定bug,即CBI(critique-bug inclusion)
  • 有沒(méi)有出現(xiàn)幻覺(jué)或者挑剔現(xiàn)象,指出了不存在的問(wèn)題
  • 對(duì)整體有用性的主觀評(píng)級(jí),包含上述內(nèi)容并考慮風(fēng)格和整體的實(shí)用性

在訓(xùn)練CriticGPT的過(guò)程中,除了RLHF方法,團(tuán)隊(duì)將獎(jiǎng)勵(lì)模型與搜索結(jié)合,提出了一種名為強(qiáng)制采樣束搜索的方法(Forced Sampling Beam Seach,F(xiàn)SBS)。

一般來(lái)說(shuō),模型產(chǎn)生的批評(píng)意見(jiàn)更長(zhǎng)時(shí),也更容易出現(xiàn)幻覺(jué)。這有點(diǎn)類(lèi)似于「準(zhǔn)確率」和「召回率」之間的權(quán)衡。

FSBS能夠激勵(lì)CriticGPT在產(chǎn)生更長(zhǎng)、更全面的批評(píng)時(shí),減少「無(wú)中生有」或者「雞蛋里挑骨頭」的發(fā)生率。

之后進(jìn)行的消融實(shí)驗(yàn)也證明了FSBS方法的有效性(圖12)。

圖片

當(dāng)然,OpenAI還是忘不了他們最喜歡的Scaling Law。他們用RLHF訓(xùn)練并評(píng)估了一系列模型,來(lái)描述模型規(guī)模對(duì)bug檢測(cè)效果的影響(圖5)。

直觀來(lái)看,要達(dá)到CriticGPT(只進(jìn)行了RL)的同等水平,在沒(méi)有額外數(shù)據(jù)或修改pipeline的情況下,需要將ChatGPT的預(yù)訓(xùn)練計(jì)算量擴(kuò)大30×。

圖片

評(píng)估結(jié)果

首先,團(tuán)隊(duì)把人類(lèi)和CriticGPT撰寫(xiě)的批評(píng)意見(jiàn)混雜在一起,再交給人類(lèi)進(jìn)行評(píng)估。

標(biāo)注者們會(huì)更喜歡自己同行們的產(chǎn)出嗎?并沒(méi)有。

ChatGPT和CriticGPT都超過(guò)了人類(lèi)表現(xiàn)(圖1b),而且63%的情況下,CriticGPT撰寫(xiě)的批評(píng)意見(jiàn)比人類(lèi)的更受青睞(圖1a)。

要知道,研究團(tuán)隊(duì)招來(lái)寫(xiě)批評(píng)意見(jiàn)的不是編程門(mén)外漢,而是有平均5年P(guān)ython研發(fā)經(jīng)驗(yàn)的技術(shù)人員。他們?cè)诿總€(gè)例子上大約會(huì)花費(fèi)50分鐘,并能執(zhí)行代碼或查找參考手冊(cè),結(jié)果也只能發(fā)現(xiàn)25%左右的人為注入的bug。

圖片

論文認(rèn)為,這些評(píng)估者在沒(méi)有LLM幫助下撰寫(xiě)的批評(píng)意見(jiàn)相對(duì)較短,而且可能缺乏所需的領(lǐng)域知識(shí)(比如特定的Python庫(kù)),并且有些篡改行為確實(shí)難以發(fā)現(xiàn),這三個(gè)原因?qū)е铝巳祟?lèi)和模型之間如此明顯的差異。

從圖6中可以看到,CriticGPT的檢測(cè)錯(cuò)誤能力比較全面,對(duì)于人為篡改的錯(cuò)誤以及原始輸出中就存在的錯(cuò)誤,都達(dá)到了最高的全面性百分比。

更令人驚訝的是,ChatGPT在這兩個(gè)方面的表現(xiàn)也都超過(guò)人類(lèi)獨(dú)立撰寫(xiě)的批評(píng)意見(jiàn)。人類(lèi)評(píng)估者要借助CriticGPT,才能與ChatGPT水平相當(dāng)。

圖片

但是下面的圖7又開(kāi)啟了一輪反轉(zhuǎn)。團(tuán)隊(duì)發(fā)現(xiàn),雖然人類(lèi)容易遺漏錯(cuò)誤,但人類(lèi)也最不容易產(chǎn)生幻覺(jué)或者「雞蛋里挑骨頭」的問(wèn)題。

在產(chǎn)生幻覺(jué)這方面,ChatGPT的表現(xiàn)最不如人意,CriticGPT稍有提升。

圖片

考慮到批評(píng)意見(jiàn)的全面性與減少幻覺(jué)之間的權(quán)衡,作者提出了團(tuán)隊(duì)中「人機(jī)合作」模式的好處。如圖8所示,人類(lèi)+CriticGPT的團(tuán)隊(duì)表現(xiàn)能夠超越模型或人類(lèi)分別單獨(dú)工作時(shí)的Pareto邊界。

圖片總結(jié)

可擴(kuò)展監(jiān)督(scalabel oversight)的終極目標(biāo)是幫助人類(lèi)評(píng)估模型,來(lái)訓(xùn)練出更好、更安全的策略。

從長(zhǎng)期來(lái)看,我們應(yīng)該找到一種泛化性更強(qiáng)的批評(píng)模型訓(xùn)練方法,適用于沒(méi)有g(shù)roung truth和獎(jiǎng)勵(lì)函數(shù)的長(zhǎng)形式、開(kāi)放式任務(wù)。

在現(xiàn)實(shí)場(chǎng)景中,模型輸出的錯(cuò)誤可能分布在答案的很多部分。CriticGPT的工作重點(diǎn)是指出一處的重要錯(cuò)誤,但未來(lái)依舊需要探索,如何識(shí)別出分散在答案中各處的錯(cuò)誤。

CriticGPT依舊存在幻覺(jué)問(wèn)題,且?guī)椭邢蕖H绻幋a任務(wù)或者原模型的輸出過(guò)于復(fù)雜,即使是有模型協(xié)助的專(zhuān)家也可能無(wú)法做出很好的評(píng)估。

但這篇文章的方法為今后的RLHF訓(xùn)練帶來(lái)了一種新鮮思路:將RLHF應(yīng)用到GPT-4中,訓(xùn)練出CriticGPT這樣的模型,可以合成出更多的高質(zhì)量RLHF數(shù)據(jù)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-12-16 09:45:56

論文GPT-4AI

2025-05-30 07:40:56

2023-07-07 09:32:57

GPT-4OpenAI

2023-04-04 11:20:40

GPT-4OpenAI

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-04-09 16:17:05

ChatGPT人工智能

2024-05-21 12:23:17

2023-12-15 12:52:17

AI模型

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-03-16 17:28:59

技術(shù)AI

2023-12-17 22:04:04

微軟GPT-4

2024-06-07 16:40:53

2023-03-16 19:17:57

2023-03-28 13:01:20

GPT-4開(kāi)發(fā)OpenAI

2023-05-03 20:53:48

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-03-16 08:13:56

人工智能?OpenAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产电影一区二区三区爱妃记 | 久久精品一区 | 久久久一区二区三区 | 香蕉久久久 | 一区二区三区四区电影视频在线观看 | 欧美成人a∨高清免费观看 色999日韩 | 国产一区免费 | 国产情侣一区 | 亚洲精品视频免费观看 | 欧美精品在欧美一区二区 | 国产一区二区在线免费观看 | 中文欧美日韩 | 久久免费观看视频 | 久久久久一区二区 | 午夜免费精品视频 | 99re| 国产精品爱久久久久久久 | 久久久久国产精品一区二区 | 国产精品国产馆在线真实露脸 | 成人一区二区视频 | 国产综合视频 | 91精品国产综合久久福利软件 | 日韩在线精品视频 | 欧美大片久久久 | 男女网站在线观看 | 国产精品免费一区二区三区四区 | 精品一区二区三区四区五区 | 日本欧美国产在线观看 | 91高清视频在线 | 热99| 狠狠久久久 | 亚洲性爰| 在线欧美激情 | 欧美一级黄视频 | www.亚洲一区二区三区 | 国产欧美性成人精品午夜 | 日韩欧美一区二区三区免费观看 | 亚洲视频一 | 亚洲成人观看 | 久久亚洲一区二区三区四区 | 亚洲免费在线视频 |