成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

o3曝智商高達(dá)157，比肩愛(ài)因斯坦碾壓99%人類！陶哲軒水平AI或出現(xiàn)

作者：新智元 2024-12-24 12:19:45

人工智能新聞

OpenAI o3的智商，竟然已經(jīng)高達(dá)157，碾壓99%的人類？這張OpenAI模型智商圖全網(wǎng)瘋轉(zhuǎn)。甚至有人大膽預(yù)測(cè)：達(dá)到陶哲軒智商（225-230）的大模型，應(yīng)該會(huì)很快出現(xiàn)了。

o3智商竟有157，堪比愛(ài)因斯坦？

今天，一張OpenAI模型智商圖，在全網(wǎng)傳遍了。

基于編程競(jìng)賽Codeforces排名評(píng)分

圖中清晰可見(jiàn)，能夠達(dá)到o3智商水平的人類大約占比僅有0.0075%。

13333人當(dāng)中，也僅有1人IQ是o3級(jí)別的。對(duì)于GPT-4o，6人當(dāng)中就有1人能夠達(dá)到IQ 115的水平。

從GPT-4o、到o1系，再到o3系，模型IQ逐漸遞增，也僅用了1年時(shí)間，實(shí)現(xiàn)了質(zhì)的飛躍。即便是最強(qiáng)o1 pro（IQ為139），o3完全領(lǐng)先近20分。

有網(wǎng)友表示，用不了多久，我們口袋里就會(huì)擁有一個(gè)IQ 157的智能。

還有人稱，陶哲軒智商大約在225-230之間，未來(lái)模型很快就能達(dá)到這個(gè)水平。

o3超高智商背后

o3發(fā)布之后，很多人都認(rèn)為AGI實(shí)現(xiàn)了。

從o1到o3，OpenAI僅用了3個(gè)月；從o1 pro到o3，僅用了1個(gè)月。種種跡象表明，Scaling Law并未終結(jié)。

過(guò)去五年，OpenAI模型在ARC-AGI上的得分，也說(shuō)明了一切。

OpenAI研究員Nat McAleese在o3發(fā)布當(dāng)天，分享了一些關(guān)于模型的介紹。

他表示，o3代表著通過(guò)強(qiáng)化學(xué)習(xí)在通用領(lǐng)域的巨大進(jìn)步。

o1是首個(gè)大規(guī)模推理模型，也僅僅是一個(gè)通過(guò)RL訓(xùn)練的大模型。o3是通過(guò)在o1基礎(chǔ)上，進(jìn)一步scaling強(qiáng)化學(xué)習(xí)而開(kāi)發(fā)的。

我們已經(jīng)看到，o3在世界上最具競(jìng)爭(zhēng)的編程基準(zhǔn)CodeForces中得分超2700，完全達(dá)到了國(guó)際大師的水平。

與此同時(shí)，o3在數(shù)學(xué)基準(zhǔn)FrontierMath驚艷表現(xiàn)令人生畏，甚至擊穿了陶哲軒的預(yù)言。

在Keras之父Fran?ois Chollet轉(zhuǎn)寫(xiě)的報(bào)告中，也解釋了o3與以往舊模型之間的區(qū)別：

o3的核心創(chuàng)新點(diǎn)在于，實(shí)現(xiàn)了token空間內(nèi)自研語(yǔ)言程序搜索和執(zhí)行。在測(cè)試時(shí)，它會(huì)搜索可能的CoT空間，并尋描述解決任務(wù)所需的步驟，由評(píng)估模型引導(dǎo)搜索過(guò)程。

而且，他表示，這種方式與AlphaZero的蒙特卡洛樹(shù)搜索并無(wú)太大差異。

本質(zhì)上，o3是一種深度學(xué)習(xí)引導(dǎo)的程序搜索形式。

不過(guò)，即便o3進(jìn)化速度如此瘋狂，OpnenAI研究員Will depue表示，這還不是AGI，我們還有很長(zhǎng)的路要走。

o3 ARC-AGI測(cè)試被曝「作弊」？

而且就在最近，o3的ARC-AGI測(cè)試結(jié)果，在圈內(nèi)引起了不小的爭(zhēng)議。

要知道，這個(gè)基準(zhǔn)設(shè)立的初衷，就是專門(mén)找到那些對(duì)人類很容易，對(duì)AI來(lái)說(shuō)卻很難的題目。

根據(jù)OpenAI的說(shuō)法，在ARC-AGI這個(gè)基準(zhǔn)測(cè)試中，o3在低計(jì)算模式下，在半私有評(píng)估中的得分為75.7%；在高計(jì)算模式下，得分為87.5%。

而人類在該任務(wù)上的表現(xiàn)通常在85%的水平，也就是說(shuō)，o3在高計(jì)算模式下，已經(jīng)超越了人類。

這個(gè)結(jié)果，引起了多人的質(zhì)疑：OpenAI不會(huì)專門(mén)針對(duì)這個(gè)任務(wù)做過(guò)訓(xùn)練吧？

要知道，在直播的第12天，奧特曼專門(mén)強(qiáng)調(diào)過(guò)，「并未對(duì)模型做過(guò)特殊處理」。

對(duì)此，心細(xì)的網(wǎng)友們紛紛展開(kāi)調(diào)查。

比如這位名為Knight Lee的網(wǎng)友，就表示o3在ARC-AGI上的分?jǐn)?shù)是經(jīng)過(guò)微調(diào)的，而之前的AI分?jǐn)?shù)并沒(méi)有被微調(diào)。

他表示，o3的一個(gè)主要優(yōu)勢(shì)，就是接受過(guò)示例測(cè)試問(wèn)題的明確訓(xùn)練而已。

之所以有這樣的觀點(diǎn)，是他引用了ARC-AGI設(shè)計(jì)師Fran?ois Chollet的說(shuō)法——

OpenAI分享說(shuō)，他們測(cè)試的o3是在公共訓(xùn)練集75%的數(shù)據(jù)上進(jìn)行訓(xùn)練的。他們尚未透露更多細(xì)節(jié)。我們尚未測(cè)試未經(jīng)ARC數(shù)據(jù)訓(xùn)的模型，因此尚不清楚其性能有多少歸因于ARC-AGI數(shù)據(jù)。

這個(gè)這個(gè)說(shuō)法為真，那o3所取得的分?jǐn)?shù)，顯然占了很大便宜。

OpenAI研究員Zach Stein-Perlman反駁說(shuō)，他們沒(méi)有針對(duì)ARC對(duì)o3做過(guò)微調(diào)。

不過(guò)今天出來(lái)的o3智商157的結(jié)果，至少可以為它的性能稍稍正名了。

o4才是Orion？

而且，在o3之后，或許還會(huì)有IQ更強(qiáng)的模型現(xiàn)身。

Information獨(dú)家爆料稱，o3并不是代號(hào)為Orion的模型。相對(duì)的，Orion可能會(huì)作為o4的基礎(chǔ)模型。

但華爾街日?qǐng)?bào)在此前的報(bào)道中表示，Orion是GPT-5……

OpenAI研究員Jason Wei稱，從o1到o3僅用了3個(gè)月的時(shí)間，這表明在新范式下，進(jìn)展遠(yuǎn)快于預(yù)訓(xùn)練范式每1-2年更新一次模型的速度。

推理模型的優(yōu)勢(shì)在于，利用更多計(jì)算資源思考之后，能夠彌補(bǔ)預(yù)訓(xùn)練的放緩速度。

也正因此，o3推理代價(jià)是高昂的。ARC-AGI基準(zhǔn)測(cè)試報(bào)告中，已經(jīng)披露了o3在每個(gè)高計(jì)算任務(wù)中的成本會(huì)超過(guò)1000美金。

這也充分解釋了，OpenAI博士級(jí)AI助手能達(dá)到每月2000美元的原因。

另一位OpenAI研究員John Hallman對(duì)此表示，當(dāng)Sam和我們研究人員說(shuō)AGI即將到來(lái)時(shí)，我們不是為了給你畫(huà)大餅，不是為了推2000美元的訂閱，也不是為了誘騙你投資我們的下一輪融資。它真的要來(lái)了。

目前，不清楚的是，o3對(duì)普通ChatGPT用戶能帶來(lái)多大幫助。

o3可能在編程、數(shù)學(xué)、科學(xué)領(lǐng)域表現(xiàn)，對(duì)編程、數(shù)學(xué)和科學(xué)領(lǐng)域的人員幫助最大，包括那些研究極其困難問(wèn)題（如核聚變能源）的研究人員。

而對(duì)于普通用戶而言，新模型可能有點(diǎn)「大材小用」。

雖然o3表現(xiàn)出色，其他科技巨頭也不甘示弱。

谷歌強(qiáng)勢(shì)推出了Gemini 2.0 Flash、視頻模型Veo 2，以及由耗資30億美金聘請(qǐng)AI研究員Noam Shazeer開(kāi)發(fā)的推理模型。

一些對(duì)價(jià)格敏感的開(kāi)發(fā)者，紛紛轉(zhuǎn)向了谷歌Flash模型。

可以看出，推理模型仍將繼續(xù)超進(jìn)化迭代，2025年也將會(huì)如今年一樣令人興奮。

責(zé)任編輯：張燕妮來(lái)源：新智元

OpenAI 模型智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：久久久久久www | 在线看av网址 | 国产大学生情侣呻吟视频 | 国产精品欧美精品 | 亚洲精品成人网 | 亚洲高清视频一区二区 | 亚洲一区久久 | 亚洲精品久久久久久久久久吃药 | 精品视频亚洲 | 蜜桃传媒av | 一区二区免费在线 | 久久精品亚洲精品国产欧美kt∨ | 日韩午夜一区二区三区 | 久久久91精品国产一区二区三区 | 中文字幕视频在线免费 | 亚洲国产aⅴ成人精品无吗国产精品永久在线观看 | 国产成人精品在线 | 中文字幕亚洲在线 | 国产成人精品免高潮在线观看 | 91亚洲国产 | 欧美日韩久久 | 亚洲日本国产 | 欧美成人一区二区三区 | www国产成人免费观看视频,深夜成人网 | 国产精品视频一二三区 | 在线观看一区 | 夜久久 | 中文一区 | 高清国产午夜精品久久久久久 | 国产激情偷乱视频一区二区三区 | 国产视频福利在线观看 | 日韩成人久久 | 欧美一级做性受免费大片免费 | 久久tv在线观看 | 国产精品视频一二三区 | 国产精品一区久久久 | 婷婷狠狠 | 久久精品天堂 | 欧美区精品 | 在线国产欧美 | 天堂一区 |

<u id="cscyw"></u>

<blockquote id="cscyw"></blockquote>

<strike id="cscyw"></strike>

<ol id="cscyw"><center id="cscyw"></center></ol>

<var id="cscyw"><em id="cscyw"></em></var><abbr id="cscyw"></abbr>