成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<pre id="11161"></pre>

<strike id="11161"><em id="11161"></em></strike><strike id="11161"><center id="11161"><legend id="11161"></legend></center></strike>

<var id="11161"></var>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

OpenAI震撼發布o1大模型！RL深度思考，技術差距拉開

作者：包包算法筆記 2024-09-13 10:06:21

如果用的是常規的預訓練數據集，中間的CoT部分完全是通過RL訓練出來，完全原生的，那么很好，LLM推理這個領域基本上結束了，我們離AGI又近了一步。

openai放大招了，是奧特曼在推上宣傳了很久的草莓真身，這次它真的來了。

圖片

又給大家帶來一點小小的震撼，國內大模型老板們也不再迷茫了，4o的多模態的還沒趕上呢，這下怎么又回到純文本了，不是說大家都搞得差不多了嗎？

奧特曼表示，雖然 o1 的表現仍然存在缺陷，不過你在第一次使用它的時候仍然會感到震撼。

圖片

這對從業者絕對是一件大好事，老板們發現餅還比較大，還可以讓資本繼續投錢，百萬洗數據槽工衣食所系！

直接延長了從愚昧之巔到絕望之谷的到來。

圖片

OpenAI o1到底有多強？

這次發布的大模型主要針對的任務是復雜任務推理，比如競賽難度的編程問題，奧賽難度的數學問題等。并且效果得到了極大的提升，大概從高中生提升到了博士生。比如寫代碼的水平：

圖片

該模型在 2024 年國際信息學奧林匹克競賽（IOI）賽題上得到了 213 分，達到了排名前 49% 的水平。

圖片

在最難的數學，code，物理化學生物等benchmark上遙遙領先。在全美高中生數學競賽AIME上，o1能達到74分（GPT4-o僅有12分），如果采樣1000次，結合reward model加權投票能到93分，能排進全國前500名，超過USA Mathematical Olympiad的晉級分數線；在GPQA，一個關于物理，化學和生物的智力測試上，OpenAI招募了一群相關領域有博士學位的專家和o1同臺競技， o1能夠在GPQA-diamond questions.上超過這群專家。在視覺感知能力后方面，o1 在 MMMU 上取得了 78.2% 的分數，成為第一個與人類專家媲美的模型。

圖片

值得注意的是，OpenAI在o1的基礎上加強了模型的代碼能力，以o1為初始化又訓了一個o1-IOI，用于參加2024年的國際奧林匹克信息競賽（2024 International Olympiad in Informatics），在和人類選手相同的條件下，在10h內解決6道非常難的競賽問題，每個問題最多允許提交50次。最終，o1-IOI能獲得一個216分的分數，在放開提交次數后，o1-IOI能獲得362.14，超過了金牌線。這種和人類頂尖選手同臺競技，才是最能反映模型能力的benchmark吧。在CodeForce上，打出了驚人的1807分。

圖片

并且安全性得分上也遙遙領先；

技術上最大的提升

一般的LLM訓練，對齊，推理三個階段的耗時通常是：

圖片

這次，o1的耗時分布就變得很神奇。

圖片

并且我們能發現一個簡單的例子需要消耗690多個token，5秒多。

圖片

OpenAI聲稱，訓練階段，會通過強化學習，讓o1完善其思維鏈并優化所使用的策略。例如：識別并糾正錯誤，將復雜步驟拆分為簡單步驟，當前方法不work時，換一種方法在推理階段，模型同樣會在呈現給用戶的cot之外，做一個更深的的所謂的long internal chain of thought，所以推理時間會更長，相當于COT套娃了，給COT再加一個COT。

圖片

但訓練技術上怎么實現的呢？

知乎作者白蘇蘇給了一個關于推理階段內在思維連提升性能的案例：

思維鏈：

圖片

內在思維鏈：

圖片

但具體是怎么訓練來的，openai只提到了強化學習幾個字，從推理速度上來看，模型在推理時候應該是輸出了很多中間token，到了某個觸發詞{output}再真正的輸出。

這個能力怎么來的，網友MoonCancer發表了不同見解：

如果用的是常規的預訓練數據集，中間的CoT部分完全是通過RL訓練出來，完全原生的，那么很好，LLM推理這個領域基本上結束了，我們離AGI又近了一步。

如果是用4o之類的模型合成大量細致的CoT數據，然后進行模仿，再學習把過于細致的部分隱藏起來，那么貢獻基本上等同于把模型scale 10倍，是一種很好的模型增強方法。

如果是專門請人寫了大量CoT數據然后強行給模型finetune進去，那真的是“有多少人工就有多少智能”。

責任編輯：武曉燕來源：包包算法筆記

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：天堂视频中文在线 | 久久综合一区 | 国产精品福利视频 | 欧美成人精品一区二区男人看 | 亚洲一区二区三 | 精品国产视频 | 99久久精品国产一区二区三区 | 国精日本亚洲欧州国产中文久久 | 日韩电影一区二区三区 | 日本不卡一区二区三区在线观看 | 精品国产乱码久久久久久闺蜜 | 亚洲一区二区精品视频 | 久久久国产精品视频 | 午夜欧美 | 一区二区亚洲 | 日本字幕在线观看 | 欧美一区二区三区 | 亚洲xx在线 | 精品国产乱码久久久久久果冻传媒 | 日韩免费在线观看视频 | 久久久久亚洲 | 98成人网| 午夜影院在线观看 | 欧美视频网 | 欧美一区二区在线观看 | 日韩影院在线 | 精品视频在线观看 | 日韩欧美一级精品久久 | 天天操天天摸天天爽 | 羞羞视频网站 | 亚洲一区毛片 | 亚洲国产成人av好男人在线观看 | 一区二区三区四区视频 | 日韩电影一区 | 成人在线免费视频观看 | 在线观看毛片网站 | 久久久精彩视频 | 欧美一区在线视频 | 羞羞网站在线观看 | 三级黄色片在线播放 | 蜜桃传媒av |

<s id="11166"><optgroup id="11166"></optgroup></s>

<ol id="11166"></ol>

<button id="11166"><option id="11166"></option></button>

<s id="11166"><code id="11166"><track id="11166"></track></code></s>