成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI遭遇靈魂拷問!這道題所有模型集體翻車,網(wǎng)友:我也不會啊

開發(fā) 前端
針對這一難題,國內(nèi)外支持圖像輸入的大模型紛紛給出了不同的答案。其中,o3給出的答案是45個,Gemini 2.5Pro給出的答案僅有10個。

拷打AI的難度還在升級?這不,圖像推理又出現(xiàn)了新難題。

該問題在Reddit上引起熱議:目前沒有任何AI能真正解決復(fù)雜推理問題

圖片圖片

問題定義其實非常簡單——在下圖中還需要添加多少個小立方體能形成一個完整的大立方體?

圖片圖片

針對這一難題,國內(nèi)外支持圖像輸入的大模型紛紛給出了不同的答案。

其中,o3給出的答案是45個,Gemini 2.5Pro給出的答案僅有10個。

圖片圖片

圖片

而國內(nèi)大模型,如DeepSeek、Qwen3的答案分別為14和9。

圖片圖片

圖片圖片

出現(xiàn)這些不同答案的原因是什么呢?請往下看。

為什么會出現(xiàn)不同的答案

核心原因:大模型對組成的大立方體的規(guī)格理解不同

o3將最終組成的大立方體的規(guī)格理解為5x5x5,但它對于缺失的小立方體的數(shù)目仍舊給出了錯誤答案,用人類視覺來看,要形成5x5x5的大立方體需要125個小立方體,而圖中已經(jīng)給出了46個,所以答案應(yīng)該為79。

而AI的錯誤源于它對圖片中小立方體的結(jié)構(gòu)和數(shù)目的分析錯誤。

圖片圖片

Gemini 2.5 Pro將最終組成的大立方體的規(guī)格理解為4x4x4。

圖片圖片

而DeepSeek和Qwen都將最終的大立方體規(guī)格設(shè)定為了3x3x3。

圖片圖片

圖片圖片

對于最終要組成的大立方體的規(guī)模理解不同,各大模型自然而然就會給出不同的答案。

不過,結(jié)合提示多次嘗試,也有大模型能夠漸漸找準(zhǔn)方向

網(wǎng)友針對這些錯誤答案提供了一些解決辦法:

例如用o3進(jìn)行測試,在前兩次嘗試時給出一些小提示,雖然這樣也得到錯誤答案,但第三次,即使沒有提示也得到了正確的結(jié)果。

圖片圖片

網(wǎng)友認(rèn)為是由于ChatGPT的長期記憶功能,讓它記住了前兩次嘗試的提示(比如考慮最長運行中有多少個立方體,專注于嚴(yán)格計數(shù)而不是估計),考慮到了失敗的經(jīng)驗,并將它們?nèi)空显谝黄稹?/span>

因此,可以說o3會通過記憶來學(xué)習(xí)。而這道難題也會成為未來的訓(xùn)練數(shù)據(jù)。

網(wǎng)友:人類也會困惑

有人說,這根本就不是一個推理問題,而是一個視覺理解問題。

出現(xiàn)作者認(rèn)為的錯誤答案是由于問題表述不清楚導(dǎo)致AI的分析過程出現(xiàn)了偏差。

甚至人類面對這種問題也會出現(xiàn)類似的困惑,比如題目的要求到底是以原來的排列結(jié)構(gòu)為基礎(chǔ)還是可以打亂結(jié)構(gòu)重新排列?

圖片圖片

圖片圖片

并且,如果能夠更清晰地為AI解釋圖片內(nèi)容(告知其圖片中小立方體的排列結(jié)構(gòu)):

圖片圖片

那么o3得到的答案也是正確的:

圖片圖片

無論是3x3x3、4x4x4還是5x5x5,或者是NxNxN,人類自己都無法統(tǒng)一答案的問題,對AI來說是不是太難了點!

網(wǎng)友:

圖片圖片

AI:或許我需要一個更科學(xué)的訓(xùn)練方式!

參考鏈接:https://www.reddit.com/r/singularity/comments/1kc2po7/not_a_single_model_out_there_can_currently_solve/?rdt=36638


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-04-03 09:42:05

2021-03-12 09:24:58

Redis面試場景

2023-05-04 12:12:00

ChatGPTAI

2020-06-02 07:44:04

AQS JavaNode

2021-02-24 10:01:05

機(jī)器學(xué)習(xí)人工智能計算機(jī)

2022-12-12 08:46:11

2023-06-06 17:48:35

罷工人工智能AI

2021-11-12 05:47:44

AI房產(chǎn)估價人工智能

2020-05-22 08:13:45

敏捷開發(fā)OKR

2022-08-26 01:10:32

TCPSYNLinux

2022-03-16 18:27:39

開發(fā)低代碼軟件開發(fā)

2019-11-19 10:32:55

Java語言程序員

2019-08-12 11:14:00

JVM垃圾對象

2018-10-25 13:16:55

靈魂拷問馬化騰ponyma

2021-05-26 05:22:48

SQL 數(shù)據(jù)庫SELECT

2023-06-16 14:10:00

TCPUDP網(wǎng)絡(luò)通信

2020-05-29 11:48:01

安全運維信息安全網(wǎng)絡(luò)安全

2024-07-16 13:20:59

2024-08-07 10:05:00

LLM大模型技術(shù)

2023-02-13 13:37:20

ChatGPTAI微軟
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产区在线 | 欧美一区成人 | 在线一区视频 | 精品熟人一区二区三区四区 | 亚洲情综合五月天 | 欧美黑人一级爽快片淫片高清 | 欧美日韩免费在线 | 国产97碰免费视频 | 国产一区999 | 资源首页二三区 | a在线视频 | 精品在线一区二区 | 中文字幕一区二区三区精彩视频 | 男人的天堂avav | 国产一区二区视频在线观看 | 成人在线免费 | 久久久久国产精品一区 | 91精品国产乱码久久久久久久久 | 网页av| 国产一区二区三区精品久久久 | 正在播放国产精品 | 中文字幕不卡在线88 | 国产精品久久久一区二区三区 | 亚洲成人一区二区三区 | 久久亚洲一区二区三 | 午夜三级在线观看 | 日日天天 | 日本三级电影免费 | 伊人最新网址 | 国产高清在线精品一区二区三区 | 久久国产传媒 | 这里有精品| 91精品国产色综合久久 | 成人欧美一区二区三区白人 | 麻豆av网| caoporn免费在线视频 | 精品乱码一区二区 | 欧美一级毛片免费观看 | 狠狠骚 | 久久亚洲综合 | 一级视频在线免费观看 |