成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3挑戰ARC-AGI,遇見大網格就懵圈?英國工程師:ARC-AGI不適合大模型

人工智能
來自英國的ML工程師Mikel Bober-Irizar(不妨叫他米哥),對ARC題目進行了細致觀察。結果米哥發現,題目中的網格規模越大,大模型的表現也就越差。而且不僅是o3,o1和o1 mini,還有隔壁的Claude,都出現了這樣的現象。

o3在超難推理任務ARC-AGI上的成績,屬實給人類帶來了不少震撼。

但有人專門研究了它不會做的題之后,有了更有趣的發現——

o3之所以不會做這些題,原因可能不是因為太難,而是題目的規模太大了。

圖片

來自英國的ML工程師Mikel Bober-Irizar(不妨叫他米哥),對ARC題目進行了細致觀察。

結果米哥發現,題目中的網格規模越大,大模型的表現也就越差。

而且不僅是o3,o1和o1 mini,還有隔壁的Claude,都出現了這樣的現象。

圖片

米哥的這項研究,引起了人們對大模型工作機制的許多討論。

世界首位全職提示詞工程師Riley Goodside看到后,也認為這是一項很好的研究。

圖片

大模型被困在了網格規模上

還是先簡單回顧一下ARC挑戰,題目帶有色塊的網格陣列(以文本形式表述,用數字代表顏色),大模型需要觀察每道題目中3個輸入-輸出示例,然后根據規律填充新的空白網格。

圖片

米哥發現,在ARC挑戰中,規模越大,也就是網格的數量越多,大模型的表現也就越差。

o3也逃不過這樣的魔咒,但相比于其他模型,o3表現的明顯下降出現得更晚,大約在網格數量達到1024個之后(請記住這個位置,后面還會講到)。

圖片

為了進一步驗證這個發現,米哥還用o1-mini進行了實際測試。

下圖當中,左右兩欄的題目乍一看上去好像沒什么區別,但在右邊,米哥對網格進行了細粒度的切割,原來的一個格子被切成了4(2×2)個。

結果原來能做對的題,切成小塊之后,o1-mini還真就不靈了。

圖片

進一步地,米哥還對ARC數據集中的規模分布進行了統計,結果剛好是規模在1024個像素的題目數量最多。

還記得前面o3成績下降趨勢突然變大的位置吧,剛好就是在1024附近。

圖片

米哥認為,這就是o3在ARC挑戰上取得優異成績的重要因素,而其他模型成績不佳,是因為對應的小規模試題占比較少。

所以在米哥看來,ARC挑戰并不能完全反映大模型真實的推理能力——有不少模型都被低估,o3則是被高估了。

ARC挑戰不適合大模型?

那么,為什么題目中網格數量一多,大模型的表現就不好了呢?

先來看米哥的分析。

米哥引用了紐約大學的一項研究結果(arXiv:2409.01374),這項研究發現人類在挑戰這樣的問題時并不會出現這種現象。

如果在人類和模型之間做個比較,那么在規模較小時o3的表現可以說完勝人類,但規模較大時優勝方就變成了人類。

這說明,大模型在解決此類問題時,思考方式和人類依然存在差別。

圖片

當然,大模型在挑戰ARC時看到的不是圖像,而是用數字代表的矩陣,這是顯而易見的,但差別還不止于此。

人類在面對ARC問題時,即使是用這種數字矩陣來表示,也能夠看出視覺信息,理解其中的位置關系。

圖片

在空間中,ARC是一個二維問題,需要跨行和列進行推理,但大模型在處理token時是以一維格式進行的。

這意味著,大模型進行跨列推理時,需要組合較長的上下文信息。

而隨著網格變得更大,模型需要對更長的上下文進行推理,并且必須對相距較遠的數字進行組合和推理。

米哥之前曾經和劍橋大學高級研究員Soumya Banerjee此前進行的一項研究(arXiv:2402.03507)表明,通過對矩陣進行90度旋轉,讓模型分別基于行和列進行推理,比直接做題成績提高了一倍。

圖片

所以米哥認為,是觀察問題的維度影響了大模型的成績,ARC這種任務并不適合大模型。

他還表示在NeurIPS上聽到了一個很好的類比——

將二維的ARC任務交給大模型,就像期望人類在四維空間中進行推理。

同時網友們還指出,雖然本質上涉及了維度差異,但視覺依然是一個重要因素。

想象一下,如果人沒有視覺能力,單純依靠聽或其他方式獲得關于其中網格的信息,也很難直接構建出二維的矩陣。

圖片

不過說到這,即便模型擁有“視覺”能力,也是將視覺信息轉換為Token,和人類的視覺也未必相同。

圖片

網友認為,真正的視覺需要能夠處理并行輸入的信息,而不是逐個Token的串行輸入,二進制IO數據流或許是一種解決方案。

圖片

One More Thing

根據ARC挑戰官方的說法,ARC-AGI的下一代ARC-AGI-2即將推出。

早期測試表明,其將對o3構成重大挑戰——

即使在高計算量模式下,o3的得分也可能會降低到30%以下(而聰明人仍然能夠得分超過95%)。

責任編輯:姜華 來源: 量子位
相關推薦

2025-04-23 11:19:31

2024-06-20 10:43:15

2025-03-17 08:45:00

智能模型AI

2025-05-14 10:09:12

2018-05-13 15:32:45

IT行業運維Linux

2025-05-13 02:00:22

2023-09-04 07:16:39

原子化CSS語義化CSS

2025-01-16 14:35:34

2024-04-01 14:04:19

AGI蘋果百度

2024-12-23 07:40:00

AI模型數學

2013-08-16 10:00:45

VMwareOpenStack

2015-03-12 13:39:48

Hadoop場景大數據

2021-01-31 18:52:36

Rust開發Web API

2024-12-23 09:45:00

數據模型訓練

2018-07-29 07:58:34

物聯網IOT物聯網產品

2009-01-15 18:30:11

服務器虛擬化VMware

2019-09-15 17:43:14

JSON HTTP物聯網技術

2023-11-02 15:34:00

數據訓練

2010-07-20 09:56:53

VDI部署

2022-07-12 14:04:19

Kafka
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美中文字幕一区 | 国产综合精品一区二区三区 | 一区二区三区亚洲精品国 | 日本久久一区二区三区 | 中文字幕精品视频 | 欧美日韩午夜精品 | 国产高清在线精品一区二区三区 | 欧美三区在线观看 | 成人激情视频在线观看 | 精品视频免费 | 精品欧美乱码久久久久久1区2区 | 日韩有码一区 | 亚洲毛片在线 | 天天激情综合 | 天天干干 | 欧美二三区| 日韩欧美二区 | 亚洲精品无 | 久久这里有精品 | 日日干夜夜操天天操 | 欧美日韩一卡 | 成人妇女免费播放久久久 | 日韩欧美视频 | 亚洲国产精选 | 97精品一区二区 | 亚洲成人毛片 | 日本三级全黄三级a | 一区二区三区精品在线视频 | 国产综合精品一区二区三区 | 国际精品久久 | 国产操操操 | 日韩中文字幕 | 国产综合视频 | 拍拍无遮挡人做人爱视频免费观看 | 免费国产一区二区视频 | 在线观看av网站永久 | 超碰免费在线观看 | av免费网址 | 欧美精品中文字幕久久二区 | 国产精品免费av | 久久高清国产视频 |