OpenAI強化微調登場：幾十條數據o1-mini反超o1暴漲80%，奧特曼：今年最大驚喜

2024-12-09 07:00:00

人工智能

CEO奧特曼表示“效果一級棒，是我2024年最大的驚喜，期待看到人們構建什么！”那么效果有多棒呢？微調后的o1-mini模型得分提高80%，直接反超o1正式版。

OpenAI“雙12”直播第二天，依舊簡短精悍，主題：

新功能強化微調（Reinforcement Fine-Tuning），使用極少訓練數據即在特定領域輕松地創建專家模型。

少到什么程度呢？最低幾十個例子就可以。

CEO奧特曼表示“效果一級棒，是我2024年最大的驚喜，期待看到人們構建什么！”

那么效果有多棒呢？

微調后的o1-mini模型得分提高80%，直接反超o1正式版。

目前OpenAI已開啟強化微調研究計劃，開發者可以申請強化微調API的alpha版本訪問權限。

進行測試時，可使用幾十到幾千個高質量數據，模型能夠通過強化學習自行探索和學習如何推理復雜任務。

蹲守直播間的網友們聽得也是one愣one愣的，完全沒有料想到今晚“圣誕盲盒“是醬嬸兒的。

OpenAI員工Jerry Tworek則表示“AGI不是授人以魚，而是授人以漁”。

OpenAI微調首次支持強化學習

直播嘉賓除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究員，還有伯克利實驗室計算生物學家Justin Reese，他們共同演示了強化微調功能的全過程。

具體來說，這是一個生物醫學任務，AI需要根據病例描述的癥狀，找出相關基因。

訓練數據長這樣：

病人信息：51歲女性，疾病發病時間未具體說明。
癥狀：眼距過寬、瞼裂狹小、小頜畸形、軟腭咽閉合不全、甲狀旁腺功能減退、全身發育遲緩和感覺神經性聽力障礙
未表現出以下癥狀：腭裂、法洛四聯癥、肺動脈瓣閉鎖、心房隔缺損、主動脈肺動脈側支血管
請列出所有可能導致這些癥狀的基因，從可能性最大到可能性最小，并解釋為什么你認為這些特定的基因可能是原因。