成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球頂級模型集體0分,AI終極大考人類5分鐘秒殺!Keras之父戳破AGI神話

人工智能 新聞
AI界「智商大考」ARC-AGI-2重磅出爐了!一個人類用5分鐘輕松解開的謎題,卻讓最頂尖LLM全線崩盤得分掛零,o3更是從曾經(jīng)76%暴跌至4%。它正式宣告,人類還未實現(xiàn)AGI。

時隔6年,ARC-AGI-2正式推出!

一大早,Keras之父Fran?ois Chollet官宣了全新迭代后的ARC-AGI-2,再次拉高了AI「大考」的難度。

圖片

這些對人類再簡單不過的題目,LLM最先敗北,先上結(jié)果:

基礎(chǔ)大模型(GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ),全部得0分。 

CoT推理模型(Claude Thinking、R1、o3-mini),得分也不過4%。

圖片

相較之下,2024年ARC Prize冠軍模型(53.5%)卻在新版本考試中,成績僅剩3.5%。

OpenAI的o3-low模型也從75.7%驟降至4%。而且,每項任務(wù)成本效率也是o3-low和o1-pro最高,達到200美金。

圖片

相反,在ARC-AGI-2里的每個任務(wù),都至少有兩名人類能在兩次嘗試內(nèi)成功解決。

ARC-AGI-2的出世,證明了「人類尚未實現(xiàn)AGI」!

圖片

現(xiàn)場400人實測,普通人無訓(xùn)練能拿下60%準確率,10人小組能達到100%

初代ARC-AGI(2019年),曾在去年揭示了AI重大轉(zhuǎn)變,LLM從「純記憶」向「測試時推理」的進化。

許多之前一眼就看透的問題,在ARC-AGI-2中,至少需要幾分鐘的深思熟慮——人類測試者平均需要5分鐘才能解題。

最新ARC-AGI-2,恰恰暴露了當前AI三大短板:符號解釋、組合推理、上下文規(guī)則應(yīng)用。

這些皆需要LLM在測試時,展現(xiàn)真正的適應(yīng)能力,具備靈活應(yīng)對新問題的「流體智力」,而不是靠預(yù)訓(xùn)練數(shù)據(jù)「硬背」過關(guān)。

值得一提的是,2025年ARC獎本周將在Kaggle平臺上線,總獎金高達100萬美元。

今年的競賽在去年基礎(chǔ)上再加碼,計算資源翻倍,旨在推動開源項目發(fā)展,助力打造能戰(zhàn)勝ARC-AGI-2的系統(tǒng)。

AI「大考」難度進階,AGI夢碎?

其他AI基準測試,基本都聚焦于測試「博士以上水平」的技能,來考察超越人類的能力或?qū)I(yè)知識。

但ARC-AGI關(guān)注的是對人類相對容易,對AI卻困難重重的任務(wù)。

這樣一來,就能精準定位那些不會因為規(guī)模擴大就自動消失的能力差距。

ARC獎將此融入對AGI的衡量標準:對人類容易、對AI困難的任務(wù)之間的差距,即「人機差距」。

當這個差距變?yōu)榱悖簿褪遣淮嬖谀茈y倒AI的任務(wù)時,我們就實現(xiàn)了AGI。

圖片

要彌補這些能力差距,需要全新的見解和思路。ARC-AGI不只是衡量AGI的進展,更重要的是激勵研究人員探索新思路。

AI系統(tǒng)在不少特定領(lǐng)域(如圍棋、圖像識別)已超越人類。但這些只是狹隘、專門的能力。

「人機差距」揭示了AGI所欠缺的部分:高效獲取新技能的能力。

ARC-AGI-2登場,基礎(chǔ)LLM掛零

今日正式發(fā)布的ARC-AGI-2基準測試,在對人類難度不變的前提下,極大提高了對AI的難度挑戰(zhàn)。

在一項有400人參與的對照研究中,ARC-AGI-2的每個任務(wù),都至少有兩名參與者能在兩次或更少的嘗試內(nèi)解決。

這和給AI設(shè)定的規(guī)則一致,每個任務(wù)AI都有兩次嘗試機會。

與ARC-AGI-1類似,ARC-AGI-2采用「兩次嘗試通過(pass@2)」的評估體系,因為部分任務(wù)存在顯著的模糊性,需要兩次猜測來消除歧義,同時也用于排查數(shù)據(jù)集中可能無意出現(xiàn)的模糊或錯誤之處。

經(jīng)過人類測試,相較于ARC-AGI-1,作者對ARC-AGI-2任務(wù)質(zhì)量更具信心。

以下是ARC-AGI-2的官方更新內(nèi)容:

  • 所有評估集(公開、半私有、私有)的任務(wù)數(shù)量從100個增加至120個。
  • 剔除了評估集中易受暴力搜索破解的任務(wù),即2020年原始Kaggle競賽中已被解決的所有任務(wù)。
  • 開展人類測試,以校準評估集難度,確保任務(wù)獨立同分布,并驗證至少有兩名人類可在兩次嘗試內(nèi)解決任務(wù),這與對AI的要求一致。
  • 根據(jù)研究成果,設(shè)計了新任務(wù)來挑戰(zhàn)AI推理系統(tǒng),涵蓋符號解釋、組合推理、上下文規(guī)則等多個方面。

2019年推出的ARC-AGI-1,主要是為了挑戰(zhàn)深度學(xué)習(xí),尤其是防止模型單純「記憶」訓(xùn)練數(shù)據(jù)集。

圖片

ARC-AGI包含一個訓(xùn)練數(shù)據(jù)集和多個評估集,其中私有評估集用于2024年ARC獎競賽。訓(xùn)練集的作用是讓模型學(xué)習(xí)解決評估集中任務(wù)所需的核心知識。

為了完成評估集中的任務(wù),AI必須展現(xiàn)出適應(yīng)全新任務(wù)的能力。

打個比方,訓(xùn)練集就像是教你認識小學(xué)算術(shù)符號,而評估集則要求用這些符號知識去解代數(shù)方程。你不能靠死記硬背得出答案,必須把知識靈活運用到新問題上。

ARC-AGI-2對AI的要求更高,要想戰(zhàn)勝它,必須具備高度的適應(yīng)性和高效性。

下面是ARC-AGI-2的示例任務(wù),滿足兩個條件:一是至少有兩名人類能在兩次嘗試內(nèi)解決;二是所有前沿AI推理系統(tǒng)都無法解決。

符號解釋

前沿AI推理系統(tǒng)在處理需要賦予符號超出視覺模式意義的任務(wù)時,表現(xiàn)欠佳。

系統(tǒng)能進行對稱性檢查、鏡像、變換,甚至識別連接元素,但就是無法理解符號本身的語義。

圖片

組合推理

AI推理系統(tǒng)在處理需要同時應(yīng)用多個規(guī)則,或者應(yīng)用相互關(guān)聯(lián)規(guī)則的任務(wù)時,困難重重。

相反,要是任務(wù)只有一兩條全局規(guī)則,這些系統(tǒng)就能發(fā)現(xiàn)并運用規(guī)則。

圖片

上下文規(guī)則應(yīng)用

AI推理系統(tǒng)在面對需根據(jù)上下文靈活應(yīng)用規(guī)則的任務(wù)時,也會陷入困境。

它們往往只關(guān)注表面模式,無法理解背后的選擇原則。

圖片

兩人組隊拿滿分,o3僅4%

ARC-AGI-2由以下數(shù)據(jù)集構(gòu)成:

圖片

校準指的是這些任務(wù)具有獨立同分布(IDD)特性。理論上,在公開、半私有和私有評估集上,未出現(xiàn)過擬合情況的分數(shù)應(yīng)具有直接可比性。

為收集相關(guān)數(shù)據(jù),在嚴格受控的環(huán)境下,對400多位人類進行了測試。

接下來幾周,公開任務(wù)的人類可解性數(shù)據(jù)將與ARC-AGI-2論文一同發(fā)布。

對所有公開的AI系統(tǒng)重新評估,ARC-AGI-2起始分數(shù)如下:

圖片

帶*的分數(shù),是根據(jù)目前收集到的部分結(jié)果,還有o1-pro的定價估算出來的。完整結(jié)果一出來,馬上會公布。

所有分數(shù)均按照「兩次嘗試通過(pass@2)」標準,且基于半私有評估集得出(ARC-AGI-1人類小組和ARChitects除外,分別基于公開評估集和私有評估集)。

人類小組的效率計算基于115-150美元的到場費用,外加解決每個任務(wù)獎勵5美元。

對成本進行了優(yōu)化以提升到場率(實際到場率為注冊人數(shù)的70%)。盡管人類智能成本效率的極限可能在每個任務(wù)2-5美元區(qū)間,但基于實際收集的數(shù)據(jù),報告中每個任務(wù)17美元。

等OpenAI o3 low/high的API開放,將對其正式版本進行測試。

用從ARC-AGI-1轉(zhuǎn)到ARC-AGI-2的任務(wù)進行預(yù)估,o3-low得分約為4%,如果計算量特別大(每個任務(wù)數(shù)千美元),o3-high得分有望達到15-20%。

智能并非僅是能力

從現(xiàn)在開始,所有ARC-AGI的報告都將附帶一項效率指標。

首先選擇成本作為指標,因為在對比人類與AI性能時,成本具有最直接的可比性。

智能并非僅是解決問題和獲取高分的能力。獲取和運用這些能力的效率,是智能的關(guān)鍵要素。

核心問題不僅在于「AI能否掌握解決任務(wù)的技能?」,更在于「以怎樣的效率或成本來掌握?」

圖片

前沿AI系統(tǒng)在ARC-AGI-1與ARC-AGI-2上的得分

僅靠規(guī)模遠遠不夠

在資源與搜索時間不受限的情況下,暴力搜索最終能夠解決ARC-AGI問題。

但這絕非真正的智能。智能在于高效地找到解決方案,而非盲目窮舉。

關(guān)注效率是ARC-AGI的核心原則。

明確量化智能的成本,要求解決方案不僅展示能力,更要展現(xiàn)對資源的高效利用,這才是AGI的本質(zhì)。

全新的ARC-AGI排行榜頁面將從分數(shù)和成本兩個維度同步呈現(xiàn)。

圖片

截至2025年3月24日,ARC-AGI新排行榜同時展示分數(shù)與效率

本周競賽盛大開啟!

隨著ARC-AGI-2的發(fā)布,2025年ARC Prize重磅回歸!競賽將于3月至11月期間在Kaggle平臺舉辦。

競賽設(shè)有12.5萬美元的保底進展獎,以及高達70萬美元的大獎,團隊得分超過85%即可解鎖!

此外,還有17.5萬美元的獎項待后續(xù)公布細則。

Kaggle競賽規(guī)則禁止使用互聯(lián)網(wǎng)API,每次提交僅可使用約50美元的計算資源。

為獲取獲獎資格,參賽者需在競賽結(jié)束時開源解決方案。

去年的競賽成果斐然,超過1500支團隊踴躍參與,產(chǎn)出了40篇極具影響力的研究論文。

獲獎研究人員提出的創(chuàng)新理念已在AI行業(yè)得到廣泛應(yīng)用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2012-06-28 10:26:51

Silverlight

2020-10-26 10:18:55

百度EasyDL

2022-12-16 09:55:50

網(wǎng)絡(luò)架構(gòu)OSI

2009-03-23 09:07:04

2023-07-12 14:45:38

2020-09-14 11:30:26

HTTP3運維互聯(lián)網(wǎng)

2021-04-30 16:23:58

WebRTC實時音頻

2021-01-29 11:43:53

SSHLinux命令

2025-02-24 08:36:00

2020-12-07 11:23:32

Scrapy爬蟲Python

2020-05-15 07:30:08

黑客Thunderbolt漏洞

2021-03-23 15:35:36

Adam優(yōu)化語言

2020-02-17 13:45:27

抓取代碼工具

2017-06-09 11:20:47

高考AI教育

2010-11-03 11:01:05

求職面試

2020-11-23 16:23:59

CSS設(shè)計技術(shù)

2020-12-17 10:00:16

Python協(xié)程線程

2011-07-11 09:58:52

2021-01-29 11:25:57

Python爬山算法函數(shù)優(yōu)化

2021-03-12 09:45:00

Python關(guān)聯(lián)規(guī)則算法
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 天天操夜夜操 | 亚洲欧美综合精品久久成人 | 在线观看av网站永久 | 成人黄色电影免费 | 一区二区三区高清在线观看 | 中文精品视频 | 无人区国产成人久久三区 | 亚洲一区二区中文字幕 | 久久激情av | 亚洲精品1| 成在线人视频免费视频 | 午夜成人在线视频 | 成人做爰9片免费看网站 | 日韩在线观看 | 国产精品成人在线播放 | 欧美日韩大片 | 亚洲精品久久久久中文字幕欢迎你 | 国产特级毛片 | 国产精久久久久久 | 亚洲毛片在线 | 国产精品久久久久aaaa樱花 | 欧美激情精品久久久久久 | 亚洲v日韩v综合v精品v | 精品91久久| 日韩久久在线 | 国产精品国产三级国产aⅴ原创 | 亚洲一区二区三区视频 | 精品亚洲一区二区 | 日本一区二区三区精品视频 | 精品精品 | 丁香婷婷久久久综合精品国产 | 欧美精品中文字幕久久二区 | 亚洲精品视频在线观看免费 | 精品国产一区二区三区性色av | 操久久| 99久久久无码国产精品 | 亚洲日本一区二区 | 精品美女在线观看视频在线观看 | 亚洲444eee在线观看 | 国产传媒视频在线观看 | 中文字幕人成乱码在线观看 |