成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<blockquote id="boxxl"><ruby id="boxxl"></ruby></blockquote>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會

作者：機器之心 2024-12-30 09:55:00

人工智能新聞

翻車，但微翻，翻了 12.5% 吧。

前幾天，OpenAI 已經完成了 12 連更的最后一更 —— 如外界所料，是新的推理系列模型 o3 和 o3-mini 。

從 o1 開始，OpenAI 所指出的推理 Scaling Law 似乎帶來了全新的實現 AGI 的希望。此次被用來驗證 o3 推理能力的基準是 ARC-AGI，這項基準已經提出了 5 年時間，但一直未被攻克。

而新模型 o3 是首個突破 ARC-AGI 基準的 AI 模型：最低性能可達 75.7%，如果讓其使用更多計算資源思考更長時間，甚至可以達到 87.5% 的水平。

對于 o1 來說，此前在這項基準中能達到的準確率僅在 25% 到 32% 之間。

在 ARC-AGI 基準中，AI 需要根據配對的「輸入 - 輸出」示例尋找規律，然后再基于一個輸入預測輸出。ARC-AGI 發起者、Keras 之父 Fran?ois Chollet 在測試報告中表示，雖然成本高昂，但仍然表明新任務的性能確實隨著計算量的增加而提高。o3 在低計算量模式下每個任務需要 17-20 美元，高計算量模式下每個任務數千美元。但這些數字不僅僅是將暴力計算應用于基準測試的結果。OpenAI 的新 o3 模型代表了人工智能適應新任務的能力的重大飛躍。

「這不僅僅是漸進式的改進，而是真正的突破，標志著與 LLM 之前的局限性相比，人工智能能力發生了質的轉變。o3 能夠適應以前從未遇到過的任務，可以說在 ARC-AGI 領域接近人類水平的表現。」

比如，對于同一道題，Llama 系列的模型就會因為參數量的提高，從而推測出更加準確的答案。

但大家也注意到了，在 ARC-AGI 的 400 個任務中，還有 34 個任務是 o3 無法解決的，即使思考了 16 小時也沒能給出正確答案。正如 Fran?ois Chollet 所說：「事實上，我認為 o3 還不是 AGI。o3 在一些非常簡單的任務上仍然失敗，這表明其與人類智能存在根本差異。」

這些任務是什么，難點又在哪里，接下來讓我們一起看看。

人們驚訝于 o3 無法解決它（沒有看到嘗試）。實際上，這些樣本可能沒有詳細說明，并且 o3 的第一個解決方案是正確的。

這個任務是整個數據集中唯一一個模型無法輸出網格的樣本 —— 在某些列上添加了錯誤的額外方塊。在 ARC 上，使用較小的 LLM 時經常會看到這種情況。

這個題目看似簡單，其實很有挑戰性。

o3 的第一次嘗試就是完全照搬了輸入，啥都沒改，相當于在答題卡上照抄了一遍題干。

這也能理解，對于一個只能一維思考的模型來說，識別二維物體確實很難。Fran?ois Chollet 表示，之前就發現過一維推理的局限性，有意思的是，如果在第二次嘗試時給大語言模型看旋轉或翻轉后的題目，它們的表現會明顯提升。

這道題主要考驗空間思維能力，不像其他題目那樣需要對網格做復雜的改動，不過也不影響最后做錯的結果......

這次算是一個不錯的嘗試 —— 雖然還是出了點問題。有意思的是，在輸出第二個答案時，o3 雖然做了一堆推理，最后卻只是簡單畫了幾條重復的線（這明顯不對）。說實話，感覺它就像是「算了算了，我不玩了！」

測試樣本比訓練樣本大得多，這一點很有意思。

可以看到，和標準答案相比，o3 的結果不僅一點邊都沒沾上，第二次還直接「擺爛了」，交了白卷。

Fran?ois Chollet 指出：「這恐怕是最不理想的一次測試案例。模型的表現難以解釋，o3 似乎在這里直接放棄了嘗試。不過還不確定這是否是因為第一次模型已經意識到自己的錯誤，從而觸發了 OpenAI 預設的某種機制?！?/span>

每一行都是正確的，但在整個網格上卻錯位了。

o3 在兩個答案中都漏了一些行、列。

o3 對俄羅斯方塊類型的題完全沒招，我們可以在前面的任務 [1acc24af] 中看到同樣的情況。

這兩次，o3 都在答案中少生成了一行?？磥恚茈y記住還有多少相同重復的行要輸出。

責任編輯：張燕妮來源：機器之心

AI 數據模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美精品在线免费观看 | av天天看| 精品粉嫩超白一线天av | 怡红院怡春院一级毛片 | 日韩精品在线观看一区二区三区 | 国产精品久久久久久久久久久久午夜片 | 日韩图区 | 成人av片在线观看 | 精品视频一区二区三区在线观看 | 欧美一区二区 | 精品国产一区二区三区观看不卡 | 午夜电影网 | 天天拍天天草 | 91色视频在线 | 精品国产乱码久久久久久闺蜜 | 午夜国产一级 | 久久久久久久国产精品视频 | 香蕉视频黄色 | 欧美日韩精品一区 | 99精品久久 | 国产福利在线视频 | av免费在线播放 | 日本不卡高清视频 | 香蕉视频在线播放 | 色资源站| 麻豆va | 欧美炮房 | 在线观看中文字幕视频 | 久久久久久亚洲精品 | 日本成年免费网站 | va精品| 亚洲精品自在在线观看 | 亚洲一区二区三区在线 | 99久久精品国产一区二区三区 | 欧美美女被c | 九九九国产 | 欧美日韩国产一区二区三区 | 成人在线 | 在线播放中文字幕 | 一区中文字幕 | 99re国产精品 |

<blockquote id="qfppw"></blockquote>

<button id="qfppw"></button>