成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI的強化微調(diào):RL+Science 創(chuàng)造新神還是滅霸?

人工智能 新聞
數(shù)據(jù)的形式類似于 instructiong tuning 的常見形式,有多個選項以及正確選項。同一時間,OpenAI 還發(fā)布了一個強化微調(diào)研究項目,鼓勵學(xué)者專家們上傳自己領(lǐng)域的獨特數(shù)據(jù),測試他們的強化微調(diào)能力。

2024 年 12 月 6 號加州時間上午 11 點,OpenAI 發(fā)布了新的 Reinforcement Finetuning 方法,用于構(gòu)造專家模型。對于特定領(lǐng)域的決策問題,比如醫(yī)療診斷、罕見病診斷等等,只需要上傳幾十到幾千條訓(xùn)練案例,就可以通過微調(diào)來找到最有的決策。

數(shù)據(jù)的形式類似于 instructiong tuning 的常見形式,有多個選項以及正確選項。同一時間,OpenAI 還發(fā)布了一個強化微調(diào)研究項目,鼓勵學(xué)者專家們上傳自己領(lǐng)域的獨特數(shù)據(jù),測試他們的強化微調(diào)能力。

1

這個結(jié)果很漂亮,用的技術(shù)正是已經(jīng)廣泛應(yīng)用于 alignment, math, coding 領(lǐng)域的方法,其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用來對齊大模型與人類偏好性數(shù)據(jù),訓(xùn)練數(shù)據(jù)的形式為(問題,回答 1,回答 2,偏好),讓用戶選擇更喜歡的回答,學(xué)習(xí)人類的偏好,訓(xùn)練獎勵模型(reward model)。給定 reward model 之后,用強化學(xué)習(xí)算法 (PPO, DPO)來微調(diào)模型參數(shù),微調(diào)后的模型更容易生成用戶喜歡的內(nèi)容。

當(dāng)求解 math 和 coding 問題時,每個問題都有正確答案。這時可以用 MCTS 等 RL 方法,生成大量的不同的求解軌跡,有的正確有的錯誤,用回答正確的軌跡做 SFT,或者用(正確解法,錯誤解法)的組合來做 RLHF。更進一步,可以把軌跡生成和 RLHF 微調(diào)這兩步迭代起來,不斷調(diào)整 reference policy,迭代不斷提高正確率,如 GRPo 或 SPPO 等。

2

OpenAI 的 RFT 只需要很少數(shù)據(jù),就能再一些專家場景中,學(xué)會醫(yī)療診斷和科學(xué)決策,這個方法本質(zhì)上還是 CoT+RL,其中 CoT 這步可以 brainstorm 增強生成多樣的不同推理路徑,然后根據(jù)答對沒有來進行打分,再繼續(xù)做 RL 微調(diào)并且迭代。CoT 可以是把一系列的科學(xué) / 醫(yī)療常識串聯(lián)起來。這些常識來自預(yù)訓(xùn)練。

難點在于如何定義什么是 RL 里的 state-transition, 也即一步的思維推理。每一步 state transition 是大模型已經(jīng)學(xué)到的科學(xué)常識,再用 RL 找到通向高分的完整鏈路。關(guān)鍵問題是如何做到 token-level 和 full-response level RL 直接找到平衡點,也即如何描述”state”。token-level 的微調(diào)效率太低、不容易泛化;full-response level 又會迷糊了推理的過程。

更 fundamental 的問題是:何找到思維鏈里面的 “state” 呢,思維的 state representation 是不是已經(jīng)在預(yù)訓(xùn)練里涌現(xiàn)出來了?有了合適的 state representation,RFT 就可以 easy, stable and robust。

3

Demo 里也能看出這個技術(shù)現(xiàn)階段的局限性。罕見病排查,從醫(yī)學(xué)角度重要,但是確實已知的科學(xué),而且是已知科學(xué)問題中最簡單的一類。罕見病的診斷往往有清晰的基因指標(biāo),和相對流程化的判別路徑。之所以能用很少的數(shù)據(jù)就學(xué)會這個診斷過程,是因為很多人類專家任務(wù)的 know-how 其實是簡單的決策樹,幾十個案例就足以囊括底層邏輯。

這類問題本質(zhì)是多項選擇題,只要選擇有限,不同選項之間區(qū)分度大就很容易掌握。

這個 demo 還規(guī)避了 RLHF 里最難搞的 reward modeling 步驟,隨便設(shè)定一個打分函數(shù)就能用,比如正確答案給 1 分,錯誤答案 0 分。

然而真正的科學(xué)問題,往往不是有固定選項的選擇題,沒有標(biāo)準(zhǔn)答案,如何定義 action,如何定義問題該怎么問,如何給新的科學(xué)概念一個定義一個名字,這才是最高級也最有挑戰(zhàn)的科學(xué)難題。科學(xué)的數(shù)據(jù)也往往是 noisy 的,不是簡單的多選題,沒有清晰的決策樹。

4

講完了技術(shù)的潛力,我們來討論風(fēng)險。今天 OpenAI 發(fā)布 RFT 的同一時間,推出了強化微調(diào)研究項目。這個項目邀請全世界的科研人員提供他們領(lǐng)域的決策數(shù)據(jù)集,讓 OpenAI 來測試其 RFT 推理決策能力,不斷進化。

然而,看到這個項目的時候,讓人冷汗不已。

今年夏天,我參加美國科學(xué)院召開的 AI for science 安全討論會,包括諾獎獲得者 David Baker 在內(nèi)的很多研究者也在場。討論會上,每個人都要回答為什么自己正在開發(fā)的 AI for science 技術(shù)是安全的,是可控的、可追蹤的。

如果科學(xué)這顆寶石,如果都集中在了同一個非開源公司手里,那么我們造出的是新神,還是帶上了無限手套的滅霸?

作者介紹

王夢迪現(xiàn)任普林斯頓大學(xué)電子與計算機工程系終身教授,并創(chuàng)立并擔(dān)任普林斯頓大學(xué) “AI for Accelerated Invention” 中心的首任主任。她的研究領(lǐng)域涵蓋強化學(xué)習(xí)、可控大模型、優(yōu)化學(xué)習(xí)理論以及 AI for Science 等多個方向。王夢迪曾先后在 Google DeepMind、高等研究院與 Simons 研究院擔(dān)任訪問學(xué)者,并榮獲 MIT TR35、美國國家科學(xué)基金會(NSF)事業(yè)獎、Google 學(xué)者獎等多項榮譽。2024 年 7 月,她獲頒 AACC Donald Eckman 獎,以表彰其在控制與動態(tài)系統(tǒng)、機器學(xué)習(xí)及信息論交叉領(lǐng)域所作出的杰出貢獻。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-04-19 12:50:58

人工智能OpenAI

2025-03-13 11:07:30

2020-06-03 14:43:26

Java虛擬機JVM

2025-06-26 09:06:59

2024-12-10 09:07:17

2014-02-25 14:32:40

華三交換機華三

2019-05-14 05:26:11

自然語言NLP代碼

2019-10-08 14:40:53

Java線程

2022-06-20 09:10:00

AI計算機量子

2025-05-12 08:24:01

2021-12-24 10:52:03

微軟操作系統(tǒng)Windows

2010-05-12 21:04:57

2025-04-09 11:59:29

2020-04-15 16:44:38

谷歌強化學(xué)習(xí)算法

2025-05-06 09:09:37

2024-04-07 08:08:40

OpenAI模型工具

2025-05-08 16:40:27

OpenAICEOFacebook

2024-04-15 12:50:00

大型語言模型ReFT

2020-12-30 13:58:36

比特幣金融加密貨幣
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 视频在线观看一区二区 | 一区二区三区视频在线 | 国产视频观看 | 亚洲欧美日韩一区 | 欧美a∨| 国产精品毛片一区二区在线看 | 中文字幕成人av | 国产精品区二区三区日本 | 久久国产一区二区 | 日韩精品一区二区三区视频播放 | 又黄又爽的网站 | 国产精品1区2区3区 欧美 中文字幕 | 午夜影院免费体验区 | 四虎影院免费在线播放 | 中文字幕 亚洲一区 | 国产精品视频免费看 | 91av亚洲| 国产精品一区二区在线 | 九九成人| 国内毛片毛片毛片毛片 | 99精品视频在线 | 日本不卡高字幕在线2019 | 一区二区三区四区在线 | 免费a国产 | 天天操天天舔 | 一区二区国产精品 | 国产精品伦一区二区三级视频 | 欧美一区二区三区在线视频 | 精品久久久久久久久久久久久久 | 久久精品成人一区 | 欧美一级特黄aaa大片在线观看 | 久久99精品久久久久婷婷 | 精品国产乱码久久久久久丨区2区 | 精品一区久久 | 999精品在线| 国产精品久久久久久一级毛片 | 欧美日韩国产精品一区 | 日韩一区二区三区四区五区六区 | 一区二区影院 | 欧美成人激情 | 涩涩操|