成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI震撼發布o1大模型!RL深度思考,技術差距拉開

人工智能
如果用的是常規的預訓練數據集,中間的CoT部分完全是通過RL訓練出來,完全原生的,那么很好,LLM推理這個領域基本上結束了,我們離AGI又近了一步。

openai放大招了,是奧特曼在推上宣傳了很久的草莓真身,這次它真的來了。

圖片圖片

又給大家帶來一點小小的震撼,國內大模型老板們也不再迷茫了,4o的多模態的還沒趕上呢,這下怎么又回到純文本了,不是說大家都搞得差不多了嗎?

奧特曼表示,雖然 o1 的表現仍然存在缺陷,不過你在第一次使用它的時候仍然會感到震撼。

圖片圖片

這對從業者絕對是一件大好事,老板們發現餅還比較大,還可以讓資本繼續投錢,百萬洗數據槽工衣食所系!

直接延長了從愚昧之巔到絕望之谷的到來。

圖片圖片

OpenAI o1到底有多強?

這次發布的大模型主要針對的任務是復雜任務推理,比如競賽難度的編程問題,奧賽難度的數學問題等。并且效果得到了極大的提升,大概從高中生提升到了博士生。比如寫代碼的水平:

圖片圖片

該模型在 2024 年國際信息學奧林匹克競賽(IOI)賽題上得到了 213 分,達到了排名前 49% 的水平。

圖片圖片

在最難的數學,code,物理化學生物等benchmark上遙遙領先。在全美高中生數學競賽AIME上,o1能達到74分(GPT4-o僅有12分),如果采樣1000次,結合reward model加權投票能到93分,能排進全國前500名,超過USA Mathematical Olympiad的晉級分數線;在GPQA,一個關于物理,化學和生物的智力測試上,OpenAI招募了一群相關領域有博士學位的專家和o1同臺競技, o1能夠在GPQA-diamond questions.上超過這群專家。在視覺感知能力后方面,o1 在 MMMU 上取得了 78.2% 的分數,成為第一個與人類專家媲美的模型。

圖片圖片

值得注意的是,OpenAI在o1的基礎上加強了模型的代碼能力,以o1為初始化又訓了一個o1-IOI,用于參加2024年的國際奧林匹克信息競賽(2024 International Olympiad in Informatics), 在和人類選手相同的條件下,在10h內解決6道非常難的競賽問題,每個問題最多允許提交50次。最終,o1-IOI能獲得一個216分的分數,在放開提交次數后,o1-IOI能獲得362.14,超過了金牌線。這種和人類頂尖選手同臺競技,才是最能反映模型能力的benchmark吧。在CodeForce上,打出了驚人的1807分。

圖片圖片

并且安全性得分上也遙遙領先;

技術上最大的提升技術上最大的提升

一般的LLM訓練,對齊,推理三個階段的耗時通常是:

圖片圖片

這次,o1的耗時分布就變得很神奇。

圖片圖片

并且我們能發現一個簡單的例子需要消耗690多個token,5秒多。

圖片圖片

OpenAI聲稱,訓練階段,會通過強化學習,讓o1完善其思維鏈并優化所使用的策略。例如:識別并糾正錯誤,將復雜步驟拆分為簡單步驟,當前方法不work時,換一種方法在推理階段,模型同樣會在呈現給用戶的cot之外,做一個更深的的所謂的long internal chain of thought,所以推理時間會更長,相當于COT套娃了,給COT再加一個COT。

圖片圖片

但訓練技術上怎么實現的呢?

知乎作者白蘇蘇給了一個關于推理階段內在思維連提升性能的案例:

思維鏈:

圖片圖片

內在思維鏈:

圖片圖片

但具體是怎么訓練來的,openai只提到了強化學習幾個字,從推理速度上來看,模型在推理時候應該是輸出了很多中間token,到了某個觸發詞{output}再真正的輸出。

這個能力怎么來的,網友MoonCancer發表了不同見解:

如果用的是常規的預訓練數據集,中間的CoT部分完全是通過RL訓練出來,完全原生的,那么很好,LLM推理這個領域基本上結束了,我們離AGI又近了一步。

如果是用4o之類的模型合成大量細致的CoT數據,然后進行模仿,再學習把過于細致的部分隱藏起來,那么貢獻基本上等同于把模型scale 10倍,是一種很好的模型增強方法。

如果是專門請人寫了大量CoT數據然后強行給模型finetune進去,那真的是“有多少人工就有多少智能”。

責任編輯:武曉燕 來源: 包包算法筆記
相關推薦

2024-09-13 06:32:25

2024-09-24 11:01:03

2025-02-03 14:17:27

2024-09-13 09:26:17

2024-10-05 00:00:00

2025-01-23 10:45:52

2024-12-05 10:16:14

2024-11-07 15:40:00

2024-12-23 07:40:00

AI模型數學

2024-12-09 11:06:31

2024-11-11 07:03:00

HK-O1aw人工智能法律推理大模型

2025-02-19 13:50:00

明星編程軟件

2025-01-08 13:08:55

2024-09-14 12:51:16

2024-11-29 13:57:38

2024-09-18 09:17:00

OpenAI模型開源

2024-10-14 13:40:00

2025-02-08 14:03:25

2024-09-19 18:03:31

2025-06-13 08:11:11

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天堂视频中文在线 | 久久综合一区 | 国产精品福利视频 | 欧美成人精品一区二区男人看 | 亚洲一区二区三 | 精品国产视频 | 99久久精品国产一区二区三区 | 国精日本亚洲欧州国产中文久久 | 日韩电影一区二区三区 | 日本不卡一区二区三区在线观看 | 精品国产乱码久久久久久闺蜜 | 亚洲一区二区精品视频 | 久久久国产精品视频 | 午夜欧美 | 一区二区亚洲 | 日本字幕在线观看 | 欧美一区二区三区 | 亚洲xx在线 | 精品国产乱码久久久久久果冻传媒 | 日韩免费在线观看视频 | 久久久久亚洲 | 98成人网| 午夜影院在线观看 | 欧美视频网 | 欧美一区二区在线观看 | 日韩影院在线 | 精品视频在线观看 | 日韩欧美一级精品久久 | 天天操天天摸天天爽 | 羞羞视频网站 | 亚洲一区毛片 | 亚洲国产成人av好男人在线观看 | 一区二区三区四区视频 | 日韩电影一区 | 成人在线免费视频观看 | 在线观看毛片网站 | 久久久精彩视频 | 欧美一区在线视频 | 羞羞网站在线观看 | 三级黄色片在线播放 | 蜜桃传媒av |