成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

剛剛,o4-mini發布!OpenAI史上最強、最智能模型

發布于 2025-4-17 09:50
瀏覽
0收藏

今天凌晨1點,OpenAI進行了技術直播,發布了最強、最智能模型o4-mini和滿血版o3。


o4-mini和o3是兩款多模態模型,能同時處理文本、圖像和音頻,并且能作為Agent智能體自動調用網絡搜索、圖像生成、代碼解析等工具以及深度思考模式(思維鏈中可以思考圖像)。


根據OpenAI公布的測試數據顯示,o4-mini在AIME2024和2025中,分別達到了93.4%和92.7%,比滿血版o3還強,成為目前準確率最高的模型;在Codeforces測試中達到了2700分,成為全球前200名最強程序員。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區


剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區

o3和o4-mini簡單介紹

傳統大模型往往局限于對輸入數據的直接處理和生成輸出結果,而OpenAI首次賦予o3 和 o4-mini調用外部工具的能力。


在訓練過程中,模型不僅學習如何生成文本,還學習如何在面對復雜任務時選擇合適的工具來輔助推理。例如,在解決復雜的數學問題時,模型可以調用計算器工具來完成復雜的計算過程;在處理圖像數據時,可以調用圖像處理工具來完成裁剪、旋轉等操作。

這種工具使用能力的實現,使得模型能夠處理更加復雜的任務場景,而不僅僅局限于簡單的文本生成。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區

多模態推理能力則是 o3和 o4-mini 模型的另外一大亮點,可以同時處理文本、圖像、音頻等,并將這些不同模態的數據進行有機整合。架構上,OpenAI使用了創新的神經網絡架構,使模型能夠將圖像和文本數據分別編碼為統一的特征表示。


例如,對于圖像數據,模型通過卷積神經網絡提取圖像的特征;對于文本數據,模型使用 Transformer 編碼器提取文本的語義信息。


然后,模型通過一個融合模塊將這些不同模態的特征進行整合,生成統一的特征表示,從而在推理過程中實現多模態數據的聯合處理。


o3和 o4-mini多模態處理模塊的另一個重要特點是其對不同模態數據的動態處理能力。模型可以根據任務的需求,動態地調整對不同模態數據的處理權重。


例如,在處理一個以圖像為主的任務時,模型會更多地關注圖像數據的特征;而在處理一個以文本為主的任務時,模型會更多地關注文本數據的語義信息。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區

在訓練過程中,OpenAI 采用了大規模的無監督學習和少量的監督學習相結合的方式。無監督學習部分,模型通過大量的文本和圖像數據進行預訓練,學習到語言和圖像的基本特征和模式;監督學習部分,則通過標注數據和工具使用數據,對模型進行微調,使其能夠更好地理解和使用工具。

o3和o4-mini測試數據

在基準測試方面,o3和o4-mini模型的表現非常強。在AIME 2024測試中,在不使用外部工具的情況下,o3準確率為91.6%,o4-mini為93.4%;AIME 2025測試中,o3準確率為88.9%,o4-mini為92.7%。


而在編程競賽(Codeforces)測試中,o4-mini達到了驚人的2719分,能夠位列全球前200名參賽者之列;o3則為2706分。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區

在博士級問題解答GPQA測試中,在不使用工具的情況下,o3模型的準確率達到了83%,o4-mini為81.4%;人類最終測試中,o3為20.32分,o4-mini為24.9分都略低于OpenAI發布的Agent模型Deep research。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區

在多模態任務方面,o3和o4-mini在MMU Math、Vista、Charive 和 Vstar 等多模態基準測試中同樣表現非常出色。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區

除了常規測試之外,OpenAI還根據科研人員的使用,分享了一些實際使用測試結果。

在科學研究領域,模型能夠幫助研究人員快速分析實驗數據、查閱文獻并提出新的研究思路。例如,在一個物理學研究項目中,模型通過分析實驗數據和查閱相關文獻,成功地幫助研究人員完成了一個復雜的物理量估計任務。


這一過程僅用了幾分鐘,而人類研究人員可能需要數天甚至數周的時間來完成。不僅展示了模型在處理復雜科學問題時的高效性,更證明了其在實際科學研究中的巨大潛力。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區

在軟件開發領域,模型能夠幫助開發者快速定位和修復代碼中的錯誤。通過調用代碼分析工具和調試工具,模型能夠快速地識別出代碼中的問題,并提出有效的解決方案。


在實際測試中,模型在處理一個復雜的Python包問題時,通過調用容器工具和代碼分析工具,成功地定位并修復了一個復雜的錯誤,這一過程也僅用了幾分鐘。


從今天開始,ChatGPT Plus、Pro和Team 用戶將在模型選擇器中看到 o3、o4-mini 和 o4-mini-high。ChatGPT Enterprise 和 Edu 用戶將在一周后獲得訪問權限,所有計劃的速率限制與之前的模型保持不變。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區

滿血o3和o4-mini也通過 Chat Completions API 和 Responses API 向開發者開放。Responses API 支持推理摘要功能,能夠在函數調用時保留推理標記以提升性能,并且很快將支持內置工具,包括網頁搜索、文件搜索和代碼解釋器,以增強模型的推理能力。

剛剛,o4-mini發布!OpenAI史上最強、最智能模型-AI.x社區


本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/CUAgtHZot88s9j-uNzRuEw??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品一区二区三区在线 | 国产精品久久久 | 国产精品视频免费看 | 91精品国产91久久久久游泳池 | 天天干夜夜操 | 国产精品黄色 | 性一交一乱一透一a级 | 91久久夜色精品国产网站 | 久久精品二区亚洲w码 | 国产一区视频在线 | 久久在线看| 超黄毛片 | 国产精品永久久久久 | 国产一区2区 | 午夜影院在线观看版 | 欧美国产视频 | 992tv人人草| 天天操人人干 | 日韩精品一区二区三区在线播放 | 欧美日韩综合一区 | www.天天操 | 亚洲区中文字幕 | 久久一本| 亚州春色 | 免费啪啪| 午夜在线 | 国产欧美一区二区精品忘忧草 | 国产精品久久久久一区二区三区 | 羞羞涩涩在线观看 | 亚洲欧美视频一区二区 | 日韩一区精品 | 欧美一区二区三区在线看 | 国产成人福利在线观看 | 婷婷综合色 | 久久久久资源 | 麻豆久久精品 | 亚洲成色777777在线观看影院 | 99久热| 永久av | 97人人超碰 | 欧美日韩国产免费 |