成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

o3全網震撼實測：AGI真來了？最強氛圍編程秒殺人類，卻被曝捏造事實

作者：新智元 2025-04-17 14:09:52

人工智能新聞

OpenAI新模型全網實測驚艷來襲！o3縮放圖像被玩瘋，o4-mini速解Project Euler，碾壓人類。AI初創CEO說，OpenAI憑此一役已經重回榜首，甚至有經濟學家直言AGI已經來臨！

昨夜o3的發布，讓人不盡感慨：打了這么久嘴炮的OpenAI，這回終于實實在在拿出了點真東西。

史上首次，模型能夠用圖像思考，視覺推理達到巔峰。

許多網友實測后，大感驚艷。

o3能不斷縮放圖像，完成解題、識圖，編程任務實測驚人。

還有一大特點，就是速度快！只用2分55秒，它就解決了一道Project Euler問題，速度秒殺任何人類。

甚至可以認為，o3是一個快速版的Deep Search，但不需要20分鐘，只需要2分鐘。

AI初創CEO Dan Shipper表示，o3意味著一件大事——OpenAI已經重回榜首！

經濟學家Tyler Cowen甚至直接發文，深感就在今天，AGI已經降臨！

縮放圖像，被網友玩瘋

給出一張圖，o3就可以反復縮放和裁剪圖像，多小的圖，經過這一番操作后都能馬上被識別出來。

比如琴架上曲譜里是什么歌，它通過放大圖片就能發現：這是「月亮河」。

發給o3一張嬰兒車的照片，詢問品牌和型號后，它會自動放大靠背上的小標志，經過14次搜索后，找到了正確答案。

還有人給o3發了一張圖片，問它這輛車是哪個品牌和型號。

o3一番絲滑操作，多次裁剪圖片，不停用Python寫代碼，然后開始在網上狂搜，僅僅4分鐘后，它就找到了正確答案，堪稱驚人！

無論是確認飯店名字，還是做出一堆玩具中紙上的謎題，它都游刃有余。

有人讓4o來分析y軸上的數字，確認它們是否符合大海撈針測試中的S型分布。

果然，它不僅做到了，甚至還根據這些數字做出了一張圖表。

綜合解題能力

o3的綜合解題能力，讓人倍感驚艷。

Layers Itd的聯創兼開發主管稱，o3實在令他印象太深刻了，因為下圖中這個問題，第一次被一個模型一次性解決了！

而o4-mini-high則是和其他模型一樣，在幾次嘗試后才成功解決。

問題看似很簡單：紅色柱子有多高？

這道題的精髓，無非就是算出物體實際高度和投在地上影子的比例，另外要注意紅柱子落在豎直墻上的影長，跟對應部分的實際高度一致。

如此簡單的問題，卻讓很多大模型第一次都折戟了，只有o3順利做出。

而生物醫學教授Derya Unutamz表示，自己被全新的o3模型徹底震撼了！

因為已經提前獲得了訪問權限，他已經好幾天對o3愛不釋手。

在他看來，o3就像o1-preview和o1-pro的里程碑，但在各個方面都更聰明、更可靠，甚至可以說，o3的智能水平已經達到或接近天才級別。

它從不產生幻覺，智能體風格工具能輕松處理多步驟任務，還具備非凡的推理能力和精確性，能生成極具洞察力的科學假設。

當Unutamz教授向o3提出極有挑戰性的臨床或醫學問題時，它的回答仿佛來自頂級的專科醫生，精確、全面、基于證據、充滿智慧。

他表示，o3的誕生，對于科學、醫學及很多領域，都是一個徹底的顛覆者。

而最喜歡給新模型測試「水獺難題」的沃頓商學院教授Ethan Mollick，則直接讓o3制作了一部關于水獺和飛機的電影。

接到這個指令后，o3雖然沒有電影功能，立即自行決定繪制每一幀，然后拼接成gif。這個任務，它一次性順利完成。

AGI已經降臨？

OpenAI的工程師、普林斯頓校友John Hallman，在o3完成訓練后提早有了試用新模型的機會，他難掩內心沖動：

o3就是AGI。

雖然還不完美，但在99%的智力評估中，o3模型能擊敗我、你乃至99%的人類。

經濟學家Tyler Cowen，直接發文宣揚：昨天OpenAI發布o3之日，就是AGI降臨之日。

他堅信o3就是AGI，但釋放AGI潛力，尚需時日：

我認為這是AGI，真的。

試著問它多個問題，然后問問自己：我原本期望AGI有多聰明？

正如我過去所爭論的，無論你如何定義AGI，它本身并不是社會事件。我們仍然需要很長時間才能正確地使用它。但股市不為所動，因為AI快速發展的事實早已被市場消化。

初創媒體聯合創始人/首席執行官Dan Shipper，稱ChatGPT是「帶WiFi的梭羅」，對本次o3的發布更是贊不絕口！

他玩了o3大約一星期，已經是他最喜歡的模型了。

它速度快，有主動性，極其聰明，而且氛圍感很強。

Dan Shipper表示，可以把o3看作是Deep Search-lite。

它仿佛可以對所有事物進行深度研究，但并不需要花20分鐘，而是只要30秒到5分鐘。

而Dan Shipper最喜歡的o3用例之一，是制作迷你課程。它可以設計一門課，每天用「提醒」工具給你上一堂新課。

最令人驚訝的體驗

在o3正式發布之前，Dan Shipper已提前測評了好幾天。

他給予了o3最高的評價：

在短短一周內，它已經成為我處理大多數任務時的首選模型。

我仍然用GPT 4.5來寫作，用3.7 Sonnet來編程Windurf，但除此之外，我幾乎無時無刻不在使用o3。

這里是o3的簡要總結：

它具備自主能力：你只需給它一個任務，30秒或3分鐘后回來，它就能給出詳細的回答。它可以利用搜索、代碼解釋器、提醒和記憶等工具，編寫復雜的功能等等。
它很快，非常流暢：速度是智能的一部分。在測試中，o3在這一維度上始終比Anthropic和Google的前沿推理模型（分別是Claude 3.7 Sonnet和Gemini 2.5 Pro）要快。使用起來非常順暢。
它非常聰明：雖然現在沒有基準數據，但給它喂了一些專家級的數獨題目，它第一次就解出來了。Gemini 2.5 Pro和3.7 Sonnet都沒能解決。
它突破了ChatGPT的一些舊局限：因為它具備自主代理能力，舊規則不再適用。它讓ChatGPT變得更加實用。
在社交上，它不那么尷尬，也不像3.7 Sonnet那樣過于刻意：o3會專注于解決問題。似乎比其他o系列模型更有「人情味」，與它交流更有趣；盡管它的寫作能力不如GPT 4.5（安息）或Sonnet 3.5，但仍然非常不錯。

對OpenAI而言，這是一個極具價值的戰略定位，將進一步鞏固其作為AI時代首選聊天平臺的領先地位。

o3的發布，也印證了企業動蕩的歷史經驗。

在Sam Altman被解雇后的一年里，OpenAI新產品發布緩慢，分析師們甚至預言其將走向衰落。

而隨著o3的推出，以及此前GPT-4.5的發布和深厚的研究積累，OpenAI正以勢不可擋的姿態強勢回歸。

勝過人類的表現

前DeepMind工程師Scott Swingle稱，o4-mini-high只用了2分55秒就解決了一道最新的Project Euler問題。

這道題并不簡單，只有15個人能在30分鐘內解決它。

而且這還是一道幾天前才出來的新題，不可能出現在o4的訓練集中，這表明o4-mini-high依靠「思考」解決了它。

o4-mini-high通過歸納法計算數學表達式，它先定義一個公式并用快速冪運算提取特定系數。接著通過累加和模運算逐步計算出結果，并用Python代碼驗證了答案。

解題速度比之前人類的最好成績快了一倍。

不過，這還不是它的極限，網友Dan Loewenherz用它又解了一遍這道題，結果這次更夸張，只用了不到一分鐘就搞定。

隨著o4-mini不斷的更新升級，它解答類似問題的速度也會越來越快，與人類選手對比速度快慢也就沒太大意義了。

換句話說，至少在編程數學領域，o4-mini-high可能已經達到了AGI。

網友Flavio Adamo更是認為稱o3和o4-mini-high為最佳「氛圍」編程模型。

Adamo最先在網上發起了針對模型的旋轉多邊形和小球挑戰。

這一挑戰既能考察模型的編程能力，也能檢驗模型對物理法則的了解，迅速成為測試新模型的基準測試。

o3和o4-mini-high在這一挑戰上的表現完美，甚至不相上下。

無論是多邊形的旋轉還是小球的運動，都與現實接近。

它們的表現已經超越了被認為是現在最強的模型Gemini 2.5 Pro與DeepSeek R1。

o3正在絕對主導SEAL排行榜，排名第一的項目有：人類終極測試（Humanity's Last Exam、多挑戰（MutiChallenge）、掩碼（Mask）以及ENIGMA（謎題解答）。

有人質疑：o3并沒有那么厲害

不過，雖然外界多把o3和o4-mini-high吹上了天，甚至有人喊出這兩個模型已經「解決了」數學問題。

但OpenAI的自家研究員Noam Brown卻表現得比較謙虛，他說o3和o4-mini在撰寫證明方面仍然表現不佳。

與獲得國際數學奧賽金牌的水平「相去甚遠」。

更有人實測后，發現o3還是不知道「strawberry」里到底有幾個字母「r」。

Gary Marcus一貫不看好目前的AI范式，直接預測：o3只是風光一時，在現實的日常推理中，o3的可靠性不如數學等封閉領域。

Transluce研究實驗室測試了o3的預發布版本，也發現了它的重大缺陷——經常捏造事實！

它不僅經常捏造從未采取過的行動，甚至還在被質疑時會精心辯解。

它經常捏造從未采取過的行動，然后在被質疑時精心為這些行動辯解。

甚至在打假過程中，他們發現o1和o3-mini也會經常進行虛假陳述。

盡管o3沒有訪問編碼工具，但它卻聲稱在自己的筆記本電腦上運行了代碼，然后將數字復制到了答案中。這種說法，出現在了71份記錄中！

甚至，它還會為自己聲稱運行的代碼編造詳細的理由，在352個實例可以證明這一點。

用戶要求o3提供一個隨機素數的示例記錄

當被質疑時，o3嘴硬辯稱，自己有壓倒性的統計證據，證明這個數是素數。

它拒不承認自己從未運行過代碼，而是聲稱錯誤是源于輸入數字不正確。

總之，o3似乎很習慣滿嘴跑火車。

而且Transluce發現，這種行為并不局限于o3。總體來說，o系列模型的幻覺頻率要高于GPT系列模型。

Transluce的研究者猜測，或許是基于結果的RL最大化產生正確答案的機會，會激勵模型去盲目猜測。

責任編輯：張燕妮來源：新智元

OpenAI 模型編程

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：午夜在线精品偷拍 | 亚洲国产精品久久久久秋霞不卡 | 国产精品久久久久久久久久妞妞 | 亚洲成网 | 涩爱av一区二区三区 | 国产美女在线观看 | 亚洲国产一区二区视频 | 久久国产精品视频 | 国产一区二区激情视频 | 日本aa毛片a级毛片免费观看 | 久久国产综合 | 黄色片亚洲 | 一区二区在线 | 中文字幕在线免费视频 | 久久精品成人 | 久久久资源 | 亚洲欧美国产精品久久 | 一区二区免费看 | 精品视频一区二区三区 | 亚洲黄色成人网 | 成人免费毛片在线观看 | 欧美日韩国产传媒 | 亚洲高清在线观看 | 中文在线视频观看 | 免费一区二区三区在线视频 | 成人午夜激情 | 亚洲精品久久久久中文字幕欢迎你 | av一二三区| 久久久久久一区 | 日韩免费av网站 | 亚洲人人 | 久久精品视频一区二区 | 黄网站在线播放 | 欧美一区二区三区在线 | 一区二区三区国产精品 | 中文字幕日本一区二区 | 国产xxxx岁13xxxxhd | 久久久国产视频 | 玖玖在线免费视频 | 天天看天天摸天天操 | 国产精品美女久久久久aⅴ国产馆 |