OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜
OpenAI“雙12”直播第二天,依舊簡短精悍,主題:
新功能強化微調(Reinforcement Fine-Tuning),使用極少訓練數據即在特定領域輕松地創建專家模型。
少到什么程度呢?最低幾十個例子就可以。
CEO奧特曼表示“效果一級棒,是我2024年最大的驚喜,期待看到人們構建什么!”
那么效果有多棒呢?
微調后的o1-mini模型得分提高80%,直接反超o1正式版。
目前OpenAI已開啟強化微調研究計劃,開發者可以申請強化微調API的alpha版本訪問權限。
進行測試時,可使用幾十到幾千個高質量數據,模型能夠通過強化學習自行探索和學習如何推理復雜任務。
蹲守直播間的網友們聽得也是one愣one愣的,完全沒有料想到今晚“圣誕盲盒“是醬嬸兒的。
OpenAI員工Jerry Tworek則表示“AGI不是授人以魚,而是授人以漁”。
OpenAI微調首次支持強化學習
直播嘉賓除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究員,還有伯克利實驗室計算生物學家Justin Reese,他們共同演示了強化微調功能的全過程。
具體來說,這是一個生物醫學任務,AI需要根據病例描述的癥狀,找出相關基因。
訓練數據長這樣:
病人信息:51歲女性,疾病發病時間未具體說明。
癥狀:眼距過寬、瞼裂狹小、小頜畸形、軟腭咽閉合不全、甲狀旁腺功能減退、全身發育遲緩和感覺神經性聽力障礙
未表現出以下癥狀:腭裂、法洛四聯癥、肺動脈瓣閉鎖、心房隔缺損、主動脈肺動脈側支血管
請列出所有可能導致這些癥狀的基因,從可能性最大到可能性最小,并解釋為什么你認為這些特定的基因可能是原因。
評分模型(Grader)會對模型的答案進行評分,OpenAI會提供不同的評分模型,并支持自定義。
強化微調步驟很簡單,在網頁界面可選擇訓練集和驗證集。
再根據情況配置超參數即可。
微調過程中,可以觀察模型性能指標的變化趨勢。
測試完成后,也可以查看模型對每條驗證數據的輸出,這里TSC2基因是正確答案,模型把它排在第一位,所以通過。
目前OpenAI內部測試中,強化微調在生物化學、安全、法律和醫療保健領域取得成功。
強化微調將在2025年初作為產品發布,對企業、大學和研究院已開放申請測試通道。
看完這場直播后,有人總結:強化微調可能并不適合所有任務,但會在科學領域帶來突破性的成果。
奧特曼默認會發Sora
OpenAI直播第二天,對比第一天o1正式發布、立等可用,似乎平淡了一些。
有不滿足的網友表示:where is GPT-4.5?
評論區猜測可能大貨會放在最后一天。
他們是真的懂如何吊所有人的胃口
不過,有網友釣魚釣出了奧特曼,且奧特曼沒有否認會發布Sora的消息。
參考鏈接:
[1]https://openai.com/form/rft-research-program/。