成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

突發！OpenAI發布最強模型o1：博士物理92.8分，IOI金牌水平

作者：量子位 2024-09-13 09:26:17

人工智能新聞

沒錯，傳說中的「草莓」，終于來與大家見面了！

來了來了！剛剛，OpenAI新模型無預警上新：

o1系列，可以進行通用復雜推理，每次回答要花費更長時間思考。

在解決博士水平的物理問題時，GPT-4o還是“不及格”59.5分，o1一躍來到“優秀檔”，直接干到92.8分！

沒錯，傳說中的「草莓」，終于來與大家見面了！

CEO奧特曼稱它是一種新范式的開始：可以進行通用復雜推理的人工智能。

具體來說，o1系列是OpenAI首個經過強化學習訓練的模型，在輸出回答之前，會在產生一個很長的思維鏈，以此增強模型的能力。

換句話說，內部思維鏈越長，o1思考得越久，模型在推理任務上的表現就越好。

o1有多強呢？CEO奧特曼直給了答案：

在剛剛結束的2024 IOI信息學奧賽題目中，o1的微調版本在每題嘗試50次條件下取得了213分，屬于人類選手中前49%的成績。

如果允許它每道題嘗試10000次，就能獲得362.14分，高于金牌選手門檻，可獲得金牌。

另外它還在競爭性編程問題 (Codeforces) 中排名前89%，在美國數學奧林匹克 (AIME) 預選賽題目中躋身美國前500名學生之列。

與GPT-4o相比，o1在數理化生、英語法律經濟等各種科目都有不同成績改進。

匯總官方發布的各種消息來看，這次突然發布的o1系列又分為三個型號：

o1，新的大模型天花板，過于強大目前不方便對外公開。

o1-preiview，o1的早期版本，可以立即提供給ChatGPT付費用戶和API用戶。

o1-mini，速度更快、性價比更高，適用于需要推理和無需廣泛世界知識的任務。

不少OpenAI員工都分別用“系統1”和“系統2”思考來科普o1系列與之前模型的區別。

連長期休假中的總裁Brockman都“詐尸”回歸了。

思維鏈提示方法的原作者Jason Wei表示，這一次不是純粹通過提示來完成思維鏈，而是使用強化學習訓練模型以更好地執行鏈式思考。

在深度學習的歷史中，人們一直試圖擴展訓練階段的計算，但思維鏈是自適應計算的一種形式，現在也可以在推理時擴展。

新模型做了很多類似人類的事情，比如將棘手的步驟分解為更簡單的步驟、識別和糾正錯誤以及嘗試不同的方法。
游戲已被完全重新定義。

o1：AI能力新天花板

通過訓練，o1模型學會完善自己的思維過程，嘗試不同的策略，并認識到自己的錯誤。

不過作為早期模型，它尚不具備ChatGPT的許多有用功能，例如聯網搜索以及上傳文件和圖像。

但對于復雜的推理任務來說，這是一個重大進步，OpenAI稱代表了人工智能的最高水平。

鑒于此，他們決定將計數器重置，并將該系列模型命名為OpenAI o1。

隨著更多的強化學習（訓練時計算）和更多的思考時間（測試時計算），o1 的性能持續提高，新的Scaling Law誕生了。

不過這種方法的Scaling受到的限制與普通預訓練有很大不同，OpenAI正在繼續研究它們。

o1思考起來是什么樣子？可以從官網示例中的編寫Bash腳本的編程任務一窺究竟。

首先作為對比，GPT-4o會直接就開始寫代碼，遺憾得到錯誤結果。

而o1-preiview會先用自己的理解復述一遍要求，然后開始拆解要求，明確最終目標。

接下來它會給自己定義任務、分析限制條件、列出需要用到的方法。

進一步把任務拆解成明確的數個小步驟。

最后才動手編寫代碼，并保證一次性得到正確結果。

OpenAI表示，o1系列可以幫醫療保健研究人員來注釋細胞測序數據，幫助物理學家可以生成量子光學所需的復雜數學公式，所有領域的開發人員可以使用o1來構建和執行多步驟工作流程。

而且不是說說而已，OpenAI已經邀請相關的人類專家學者試用了一波。

馬克思普朗克研究所的量子物理學者Mario Krenn，展示了GPT-4o不能回答但o1-preview正確完成計算的復雜量子物理問題。

除了考試和學術基準之外，團隊還評估了人們對o1-preview與GPT-4o在開放問題上的偏好。

在數據分析、編碼和數學等推理密集型類別中，o1-preview明顯優于gpt-4o。

然而o1-preview在某些自然語言任務上并不是首選，這表明它并不適合所有場景。

OpenAI科學家Noam Brown分享了更詳細的個人測試結果。

在上個月的ACL會議上有一個所有當時大模型都無法解決的邏輯難題。o1-preview能夠做對，o1滿血版幾乎每次嘗試都能做對。

目前o1花費在思考上的時間是幾秒到十幾秒，但OpenAI未來的改進方向不是縮短，反而是努力增加這個時間，

目標是讓未來的版本思考幾個小時、幾天甚至幾周。
推理成本會更高，但你會為一種新的抗癌藥物付多少錢？為了電池的突破、黎曼猜想的證明又付多少？
人工智能可以不僅僅是聊天機器人

誰可以訪問o1？

根據OpenAI官方說法，ChatGPT Plus和Team用戶最早可在幾個小時內可以體驗到o1系列模型。

在發布時，o1-preview限制為每周30條消息，o1-mini每周50條。

API訪問權限將首先給Tier 5級用戶，也就是已經在OpenAI API上花費超過1000美元的人。

OpenAI正在努力提高這些速率，并使ChatGPT能夠針對給定的提示自動選擇合適的模型。

快打開ChatGPT看看你是不是第一波吃草莓的人吧

責任編輯：張燕妮來源：量子位

ChatGPT AI 模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：午夜一级大片 | 欧美日韩免费视频 | 久久久久久久成人 | 欧美a v在线 | 国产精品一区二区三级 | 韩国av网站在线观看 | 福利社午夜影院 | 6080亚洲精品一区二区 | 91色在线 | 日韩欧美一区二区在线播放 | 欧美国产日韩一区 | 成年人在线视频 | 波多野吉衣在线播放 | 国产日韩欧美在线 | 中国一级特黄毛片大片 | 欧美国产日韩一区二区三区 | 免费的av网站 | 日日干日日射 | 国产精品成人国产乱一区 | 精品视频在线免费观看 | 日韩中文字幕免费在线观看 | 欧美日韩一二区 | 国外成人免费视频 | 欧美性生活网 | 国产欧美精品一区 | 欧美日韩在线播放 | 嫩呦国产一区二区三区av | 奇米久久久 | 成年人国产在线观看 | 欧美精品久久久 | av中文字幕在线播放 | av影音资源| 久久精品免费观看 | 国产成人精品午夜 | 日韩免费视频一区二区 | 欧美日韩精品一区二区三区四区 | 久久av资源网 | 婷婷免费视频 | 欧美一级片中文字幕 | 黄视频免费观看 | 久久亚洲春色中文字幕久久久 |