成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI突發新模型:用GPT改進GPT訓練,左腳踩右腳登天,RLHF突破人類能力上限

人工智能 新聞
CriticGPT,用于給代碼挑Bug時能找到75%以上,而相比之下人類只能找到不到25%。

OpenAI突然發布新模型!基于GPT-4訓練,可以幫助下一代GPT訓練

CriticGPT,用于給代碼挑Bug時能找到75%以上,而相比之下人類只能找到不到25%。

它還可以給Bug寫“銳評”,在60%的情況下人類訓練師更喜歡有CriticGPT幫助下的批評。

圖片

有網友開玩笑說,“只會批評的GPT,這不是我前妻么”。

圖片

但這項研究最重要之處在于,CriticGPT挑錯能力可以泛化到代碼之外。

比如在RLHF訓練中給AI的輸出挑錯,而且已經進入OpenAI內部訓練流程。

圖片

更好的RLHF就能訓練出更強的模型,更強的模型又能通過更好地挑錯來增強RLHF訓練……

論文結論中赫然寫道:在真實世界數據中挑錯誤上,AI還可以繼續進步,人類智能已經到頭了。

圖片

左腳踩右腳上天,難道真的被這幫人給搞出來了?

圖片

這是一篇來自被解散的超級對齊團隊的“遺作”,由前負責人Jan Leike帶隊。

而Leike本人已經跳槽去了隔壁Anthropic,繼續做這類研究。

圖片

基于GPT-4,改進GPT-4

OpenAI官網文章變相承認了,GPT-4之后這么久沒有大的改進,還真的遇到一些瓶頸:

隨著AI能力變強,它犯的錯也不那么顯眼了,人類訓練師都難以發現不準確之處。

人類給不出反饋,那RLHF“人類反饋強化學習”就無從談起了。

圖片

CriticGPT正是為了應對這一挑戰而生。

CriticGPT基于GPT-4,也接受了RLHF訓練出,但特別之處在于訓練數據中包含大量的錯誤輸入。

具體來說,分為三步:

  1. 讓人類標注員在ChatGPT生成的代碼里故意植入一些微妙的bug。
  2. 標注員扮演代碼審查員的角色,寫下他們對這些bug的評論。
  3. 用這些數據來訓練CriticGPT,讓它學會如何發現和指出代碼中的問題。

圖片

在具體訓練過程中,他們還玩了點花樣。

比如不斷讓標注員驗證自己插入的bug是否足夠隱蔽,能夠騙過當前版本的CriticGPT。這樣一來,CriticGPT就被迫不斷進化,學會發現越來越隱蔽的問題。

思路有點像GAN的左右互搏,只不過生成器這個位置是人類來充當的……

最后,OpenAI還使用了一種“強制采樣束搜索”(FSBS)的技術,允許CriticGPT在生成評論時既能保持全面,又能減少”幻覺”和“雞蛋里挑骨頭”現象。

具體來說,FSBS會強制模型生成多個不同的評論片段,用獎勵模型對這些片段進行評分,最后根據評分和一個長度修正因子來選擇最佳的評論組合。

通過調整長度修正因子,可以在評論的全面性和準確性之間找到最佳平衡點,既不會錯過重要問題,又不會過度挑剔。

圖片

等一下,推理時搜索,這不正是和傳聞中的Q*一個思路,這次居然寫到了論文里。

可能是看外部團隊(如顏水成)按這一思路的研究已經夠多了,就不再藏著掖著了。

圖片

說回到CriticGPT,取得了哪些結果呢?

  • 在發現人為插入的bug方面,人類審核員平均只能找到25%,而CriticGPT的成功率高達75%以上
  • 在評估自然出現的Bug時,有63%的情況下人類更傾向于選擇CriticGPT的評論而非人類評論
  • CriticGPT的評論被認為比ChatGPT的更全面,更少出現”幻覺”和無關緊要的挑剔
  • 在評估非代碼任務時,成功識別出數百個在ChatGPT訓練數據中被人類認為是”完美”的錯誤。

不過CriticGPT也不是十全十美,它也會有”幻覺”問題,指出一些實際上不存在的問題。

目前,人類和CriticGPT組隊工作效果最好:既能發現大部分問題,又能避免AI的”幻覺”。

圖片

RLHF上限不再是人類

對于CriticGPT,負責這項研究的Jan Leike也補充了他自己的一些看法。

圖片

RLHF是創造出ChatGPT的核心技術之一,但隱患在于人類能力就是RLHF的天花板。

當需要AI去解決人類無能為力的任務時,人類給不出相應反饋,AI也就無法改進了。

CriticGPT的成功,意味著超級對齊團隊設想中的可擴展監督,也就是用弱模型監督訓練更強的模型,終于有希望了。

圖片

不過他也透露,目前CriticGPT并沒有幫助人類顯著提高艱難任務上的準確性,但是框架有了只要有更好的預訓練模型就能不斷改進。

圖片

為什么先從代碼任務開始入手呢?

一方面,代碼任務有現實意義,做出來的模型可以直接用上。

另一方面,代碼可以清晰明確的評估,比開放式對話更客觀,更容易評估CriticGPT發現的問題是否真實和重要。

結果CriticGPT在代碼上訓練,卻不僅能挑代碼Bug,還給1/4的ChatGPT生產數據挑出了問題。

圖片

最后,由于原OpenAI超級對齊團隊已經解散,已經跳槽的Jan Leike插入了一條Anthropic招聘廣告:

想做后續研究的請去隔壁。

也是讓人不得不感嘆硅谷是真的沒有競業協議。

圖片

One More Thing

同日,谷歌發布了開源大模型Gemma 2,OpenAI趕緊甩出一條消息來狙擊,這都第幾次了。

圖片

對于甩出來的不是Sora公測或者GPT-4o完整語音、視頻模式,也有很多人不滿。

有網友提了個更好的主意:

做個ReleaseGPT,專門用來發布承諾好的更新吧。

圖片

不過這次OpenAI久違的放出了論文,也還算有一些誠意。

論文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-19 09:26:12

2023-06-08 07:58:29

2024-12-20 11:41:52

2023-12-18 07:15:37

2024-01-11 07:28:42

2023-12-16 09:45:56

論文GPT-4AI

2021-03-23 15:21:00

人工智能機器學習技術

2024-05-14 11:29:15

2023-08-02 00:19:46

2023-04-09 16:17:05

ChatGPT人工智能

2023-06-01 12:46:46

GPT-4數學OpenAI

2024-08-28 13:00:42

2024-03-08 12:35:27

AI模型

2025-06-11 08:54:52

2023-04-27 08:15:09

2022-05-05 09:00:00

AI模型數據

2023-07-13 09:00:00

人工智能GPT模型

2023-11-08 13:05:23

AI模型

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2024-01-05 11:11:39

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区影院 | 日韩国产中文字幕 | 日韩一区和二区 | av在线播放一区二区 | 一级片免费视频 | 国产欧美一区二区三区久久 | 中文字幕av在线播放 | 午夜小电影 | 国产精品久久久久久久久久久久冷 | 日韩中文字幕 | 国产欧美精品一区二区 | 波多野结衣电影一区 | 国产精品久久亚洲 | 久久精品免费观看 | 亚洲第一av | 欧美区日韩区 | 国产精品日产欧美久久久久 | 一级看片免费视频 | 一区二区三区四区五区在线视频 | 亚洲高清视频一区 | 久久综合影院 | 欧美日韩中文字幕在线 | 久久99精品久久久久久 | 91精品国产高清久久久久久久久 | 超碰日韩 | 欧美黄色一区 | 日韩精品久久一区二区三区 | 国产在线一区二区三区 | 三级黄片毛片 | 免费在线日韩 | 精品久久一区 | 视频一区中文字幕 | 99精品久久久久久中文字幕 | 91免费看片 | 综合久久99 | 精品99爱视频在线观看 | 韩国精品一区二区三区 | 欧美一级片 | 国产精品久久久久久久久久久免费看 | 免费99精品国产自在在线 | 国产精品a久久久久 |