成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型玩不好數(shù)獨?!Transformer作者初創(chuàng)公司公布排行榜:o3 Mini High“變異數(shù)獨”正確率僅2.9%

人工智能 新聞
Sudoku-Bench是Sakana AI在今年3月發(fā)布的一項由不同難度級別的數(shù)獨謎題組成的基準(zhǔn)測試,用于衡量人工智能的多層次和創(chuàng)造性推理能力。

大模型做數(shù)獨,總體正確率只有15%???

圖片

繼出場自帶十篇完整學(xué)術(shù)論文的史上首個“AI科學(xué)家”之后,Transformer作者Llion Jones又帶著他的創(chuàng)業(yè)公司Sakana AI來搞事情了。

這次,Sakana AI公布了一個AI模型解決數(shù)獨問題能力的排行榜

問題集是該公司推出的全新基準(zhǔn)Sudoku-Bench,包含了從簡單的4x4到復(fù)雜的9x9現(xiàn)代數(shù)獨問題,旨在考驗大模型創(chuàng)造性推理能力

榜單顯示,大模型不僅總體正確率只有15%,在9×9的現(xiàn)代數(shù)獨中,即使是高性能模型o3 Mini High,正確率也只有2.9%。

圖片

Sudoku-Bench項目在2025NVIDIA GTC開發(fā)者大會上進行了展示。

NVIDIA首席執(zhí)行官黃仁勛對此評價:

像數(shù)獨這樣的謎題將有助于提高AI的推理能力。

圖片

Sudoku-Bench全新基準(zhǔn)測試

Sudoku-Bench是Sakana AI在今年3月發(fā)布的一項由不同難度級別的數(shù)獨謎題組成的基準(zhǔn)測試,用于衡量人工智能的多層次和創(chuàng)造性推理能力。

1、現(xiàn)有問題:大模型的 “記憶依賴癥”

目前大多數(shù)推理基準(zhǔn)測試存在一個缺陷:大模型往往通過記憶標(biāo)準(zhǔn)答案或固定模式來完成任務(wù),而不是真正運用邏輯推理能力

當(dāng)遇到與訓(xùn)練數(shù)據(jù)中 “類似” 的問題時,模型會直接套用記憶中的解決方案,而非通過邏輯推導(dǎo)得出答案。

對于全新規(guī)則或未見過的模式,模型往往無法有效應(yīng)對,因為缺乏可直接匹配的記憶模板。

傳統(tǒng)數(shù)獨游戲?qū)Υ竽P蛠碚f可能已經(jīng) “太簡單”,它們可能只是記住了套路,而不是學(xué)會如何創(chuàng)造性地解決新問題。

2、解決方案:Sudoku-Bench用 “變異數(shù)獨” 考倒大模型

近年來,各種各樣具有獨特規(guī)則的衍生謎題出現(xiàn)。

這些“變異數(shù)獨”謎題需要多步驟和創(chuàng)造性的推理技巧,但只有一個正確答案,特點是無法通過記憶解決,必須通過多步邏輯推理找到 “突破口”。

這些特點使得“變異數(shù)獨”成為測試AI推理能力的理想選擇。

以下就是一個“變異數(shù)獨”示例,你不僅需要遵循原始規(guī)則,而且沿著彩色線條排列的數(shù)字還需要遵循額外的規(guī)則。

圖片

Sudoku-Bench基準(zhǔn)包括傳統(tǒng)和現(xiàn)代數(shù)獨(變異數(shù)獨)問題,難度分級,從當(dāng)前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。

圖片

Sudoku-Bench還包含了由Nikoli(日本著名的數(shù)獨公司,數(shù)獨正是其名稱的由來)提供的100道手工數(shù)獨題

圖片

3、大模型的 “慘敗”:基線實驗結(jié)果

在今年3月該基準(zhǔn)發(fā)布后,研究人員測試了多個AI模型,包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內(nèi)的最先進大模型。

為了給模型一個公平的機會,團隊為模型提供了部分完成的謎題,并評估它們完成謎題的能力。

圖片

結(jié)果顯示,一些模型在這種輔助下表現(xiàn)得相當(dāng)不錯,但關(guān)鍵結(jié)果在于最后兩列。

即使是最先進的模型,平均連一個正確的數(shù)字都放不下,而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準(zhǔn)測試中所有謎題的模型。

最新的排行榜顯示:

  • 無工具輔助時,所有模型在100個謎題中的總體正確率低于15%
  • 小網(wǎng)格(4x4)表現(xiàn)稍好(40%-73% 正確率),但9x9網(wǎng)格幾乎全敗,正確率接近0%,即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
  • 模型常犯錯誤包括:錯誤解答、放棄解題、誤判規(guī)則矛盾,尤其是面對需要 “突破口” 的謎題時,只會盲目猜測,無法像人類一樣通過邏輯鏈縮小搜索范圍。

圖片

測試團隊詳細(xì)列出了模型在每個謎題上的表現(xiàn),感興趣的朋友可戳文末鏈接查看~

關(guān)于Sakana AI

Sakana AI由前谷歌研究人員Llion Jones(Transformer作者之一)和David Ha于2023 年7月在東京成立,主要對生成文本和圖像的AI基本模型進行研究。

此前,該公司開源發(fā)布了AI科學(xué)家AI審稿人,前者一出場就獨自完成了十篇完整的學(xué)術(shù)論文,包括但不限于擴散模型方向、Transformer與強化學(xué)習(xí)等,引起了不小的轟動。

后者能對AI寫的論文進行評審,提供改進意見,主打“以我之矛攻我之盾”。

圖片

該公司還發(fā)布了一種名為“連續(xù)思維機器 (CTM)”的新型AI模型,通過像人類一樣“逐步”思考并學(xué)習(xí)世界的內(nèi)部模型,超越了簡單的模式識別,并獲得了逐步解決迷宮等復(fù)雜問題的能力。

圖片

Sakana AI還與Cracking The Cryptic(YouTube 上最大的謎題評論頻道之一)合作,Cracking The Cryptic每天都會演示一些世界上最好的數(shù)獨謎題的邏輯解決方案。

圖片

Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動數(shù)據(jù)。這些數(shù)據(jù)可以作為訓(xùn)練AI推理模型的理想數(shù)據(jù),并與Sudoku-Bench一起發(fā)布。


著名的數(shù)獨出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數(shù)獨游戲:沿著Sakana AI紅色標(biāo)志線相鄰的任何數(shù)字都必須包含一個偶數(shù)和一個奇數(shù)。

感興趣的朋友可以嘗試一下(解答過程已附在文末)~

圖片

技術(shù)報告:https://arxiv.org/abs/2505.16135

排行榜:https://pub.sakana.ai/sudoku/

Github:https://github.com/SakanaAI/Sudoku-Bench

奇偶魚題目:https://sudokupad.app/wsj7iunsg6解答過程:https://www.youtube.com/watch?v=JdHSSNKuIzU

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-18 14:59:16

2024-01-26 13:18:00

AI訓(xùn)練

2025-04-23 08:30:05

2024-12-24 16:15:04

2020-03-07 22:01:58

編程語言JavaPython

2015-12-17 10:30:44

2025-04-17 14:09:52

OpenAI模型編程

2024-08-26 08:00:00

模型AI

2025-01-16 08:30:00

LLMAI訓(xùn)練

2017-12-28 15:35:30

編程語言JavaPHP

2024-07-23 12:32:11

2024-06-19 11:45:34

2016-10-18 15:24:13

Google谷歌開源

2012-12-27 12:27:48

Google Play2012Android

2013-08-23 09:41:19

2014-11-26 09:40:02

編程語言Ruby

2014-11-26 10:49:32

編程語言

2024-09-19 17:44:04

2009-04-10 09:06:45

福布斯硬件企業(yè)排行榜

2023-09-21 10:30:05

AI開源
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产在线一区二区 | 一区二区日本 | 久久久www成人免费精品张筱雨 | 亚洲精品片| 久久免费精品 | 欧美一区二区三区四区在线 | 日韩欧美网 | 婷婷亚洲综合 | 在线国产精品一区 | a在线视频 | 久久精品成人热国产成 | 少妇一级淫片免费播放 | 国产日韩欧美一区二区 | 国产精品久久久久久久久污网站 | 欧美激情一区二区三级高清视频 | 日日爱av| 久久鲁视频 | 欧美一a一片一级一片 | 波多野结衣在线观看一区二区三区 | 青青草国产在线观看 | 国产欧美在线一区 | 日韩欧美综合在线视频 | 国产亚洲一区二区三区 | 日韩综合在线视频 | 毛片大全| 久久久综合精品 | 国产精品一区二区三区久久 | 一区二区福利视频 | 欧美h视频 | 成人在线小视频 | 91精品国产乱码久久久 | 热99| www.成人久久 | 鲁大师一区影视 | 成人久久18免费网站图片 | 国产免费a视频 | 色网站入口 | 成人久久网| 亚洲精品大片 | 久久精品久久精品久久精品 | 欧美一区二区三区视频 |