成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

高中生用「我的世界」評測SOTA模型!Claude暫時領先,DeepSeek緊隨其后

人工智能 新聞
AI頻頻刷新基準測試紀錄,卻算不清「strawberry」里到底有幾個字母r,在人類看來很簡單的問題卻頻頻出錯。這種反差促使創意測評興起,例如由一名高中生開發的MC-Bench,用Minecraft方塊「競技場」模式評價AI能力。這種新的測評范式,或許更貼合人類對AI直觀、創造性能力的實際期待。

「strawberry中有多少個r」和「在LSAT法學考試中獲得88分」哪個更難?

對于現如今的LMMs來說,通過各種人類「聽著就頭痛,看又看不懂」的基準測試似乎已是家常便飯。

比如DeepSeek-R1發布時在6大基準測試(包含AIME、MMLU、MATH-500等)中超過o1取得領先。

圖片

但是對于人類來說依靠直覺和下意識就能回答的問題,LLM們似乎集體有點「發懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績,但卻無法數清楚「strawberry」中有多少r。

除了復雜的基準測試,另外一種評價模型好壞的方式就是「競技場模式」。

比如可以在Chatbot Arena進行上提問投票,選出面對相同問題時的「最佳模型」。

圖片

但是這種依靠Chat模式的評測依然不太直觀,于是各種各樣的創意評測就誕生了。

創意評測的魅力

圖片

Minecraft Benchmark(或 MC-Bench)像一個競技場,在一對一的挑戰中針對相同提示生成Minecraft作品。

「對決雙方」由用戶投票選擇哪個模型做得更好。

并且只有在投票后才能看到每個Minecraft建筑是由哪個AI制作的。

目前MC-Bench的榜單上,Claude3.7暫時領先,deepseek-r1位列第5,但是考慮到DeepSeek-R1的發布時間,Claude3.7、GPT-4.5和Gemini2.0都相當于是「新一代」的模型了,期待DeepSeek-R2出來后的榜單!

圖片

像MC-Bench這樣的創意評測,優勢非常明顯:普通人也能輕松參與,像「選美」一樣簡單直接。

創造MC-Bench項目的僅僅是一名高中生Adi Singh,在將Minecraft用于AI評測這件事情上,Adi Singh覺得Minecraft的價值不在游戲本身。

而是作為有史以來最暢銷的電子游戲,即使對于沒玩過Minecraft游戲的人來說,仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發的,除了Adi Singh外,貢獻者還有7位,包括了「提示詞創意官」、技術主管和開發者們。

圖片

并獲得了Anthropic、Google和阿里巴巴等公司的技術支持。

圖片

傳統LLM評測:嚴肅認真但未必管用

傳統的AI基準測試技術被證明不足,主要體現在以下幾個方面:

  • 主場優勢 (Overfitting to benchmarks):傳統的 AI 基準測試往往基于特定類型的任務設計,這些任務對 AI 模型來說相對固定且簡單,這種過擬合就像一名「只會背題」的學生。
  • 測試任務過于狹窄:傳統的測試任務多集中于單一維度的能力評估,如語言理解、邏輯推理、數學計算。
  • 缺乏真實環境與開放性:傳統的基準測試通常使用高度抽象化或理論化的環境,而這些環境往往不能反映現實世界中問題的開放性和不確定性。
  • 難以衡量通用性與泛化能力:傳統 AI 基準測試往往無法有效衡量模型的通用性或泛化能力。

因此AI構建者正在轉向更有創意的方法來評估Gen-AI模型的能力。

AI開發者們表示,我們也想玩點「新鮮的」。

圖片

MC-Bench的本質是在測試AI模型的文本理解和編碼能力。

通過類似Chatbot Arena的方式來進行模型評比。

圖片

對于為何選擇游戲,選擇Minecraft,Adi Singh覺得「游戲可能只是一種測試能動性推理的媒介,比現實生活更安全,也更適合測試目的,因此在我看來更為理想」。

從Adi Singh個人網站來看,他對于使用Minecraft方塊進行AI評測應該是「蓄謀已久」,Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。

比如,gpt-4.5根據提示「構建一艘在云層中飛行的蒸汽朋克風格飛艇」。

圖片

再比如,claude-3.7-sonnet有一個令人印象非常深刻的Minecraft模型,根據提示「韓國友誼之鐘」生成。

圖片

并且,社區成員對MC-Bench的評價也很高。

圖片

比如目前就職于OpenAI的基礎研究員Aidan McLaughlin,對Minecraft Bench給予了很高的評價:你應該密切關注MC-Bench!

Aidan McLaughlin同時給出了他認為最佳的人工智能基準應具有: 

  • 審計數據的樂趣 (與其他所有基準測試都不同) 
  • 測試真正關心的功能 (代碼、美學、意識) 
  • 甚至可以辨別頂級型號之間的性能差異

圖片

游戲測評AI似乎依然是「主流創意」

在Claude 3.7 Sonnet發布時說過,模型降低了在數學、競賽和編程方面的特化程度,有「更好」的思考能力。

那么如何評測新模型的「思考」能力呢?

答案就是游戲《寶可夢》,這不是開玩笑。

Claude通過配備了透過程序來操控游戲的特定「按鈕」。

甚至還在Twitch上直播了Claude玩游戲的全過程,可以看到它如何學習、思考并采取行動。

圖片

不論是傳統的基準測試,還是類似MC-Bench的創意測試。

對于生成式AI的能力評測,目前依然沒有一個「一勞永逸」的標準。

傳統基準測試的評估結果多采用單一的客觀分數(如準確率),忽視了人類實際感受和主觀評價的維度。

在生成式AI中,美學感知、創造力、直觀性往往更加重要,但這些因素很難在傳統的標準化測試中體現出來。

也許類似MC-Bench這樣的創意評測會給未來的AI評測帶來新的「范式」。

而新的AI評測「范式」也許會加速推動AI的發展。

責任編輯:張燕妮 來源: 新智元
相關推薦

2019-07-04 15:57:16

數據安全互聯網

2009-09-29 17:42:56

2010-03-31 10:11:08

多核

2024-08-19 08:45:00

開源模型

2020-12-09 13:59:15

神經網絡AI算法

2009-05-20 09:02:53

IT職業培訓就業高中生

2025-03-21 13:05:18

模型評測基準

2023-06-20 18:33:00

DOM框架React

2011-04-19 09:40:31

2020-10-11 20:40:58

編程語言PythonJava

2009-04-14 15:30:25

2009-08-10 17:08:52

計算機專業就業IT培訓

2024-09-29 13:24:41

2025-03-07 12:04:07

2025-06-09 15:26:53

ChatGPTGPT-4o4o-mini

2021-03-24 10:15:18

人工智能機器學習技術

2010-01-29 10:24:17

2015-10-20 17:40:42

2021-01-14 16:25:18

iPhone 7服務器開發者
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美久操网 | 欧美日韩视频在线播放 | 欧产日产国产精品国产 | 二区中文字幕 | 男人亚洲天堂 | 欧美视频一级 | 国产精品色综合 | 中文字幕久久久 | 性福视频在线观看 | 国产精品一区二区不卡 | 亚洲欧美国产一区二区三区 | 亚洲永久免费观看 | 成人国产精品入口免费视频 | 精品国产伦一区二区三区观看方式 | 日韩一区不卡 | 久久精品亚洲精品国产欧美 | 综合色站导航 | 国产免费一区 | 亚洲一区二区三区在线播放 | 黄色在线观看网站 | 中文字幕视频在线观看 | 国产乱性| 成人影院一区二区三区 | 午夜影院网站 | 久久综合久 | 精品一区电影 | 蜜桃精品噜噜噜成人av | 午夜影院视频在线观看 | 国产一区www | 久久久五月天 | 中文字幕视频在线观看 | 欧美激情亚洲 | 中文字幕av亚洲精品一部二部 | 久久精品久久综合 | 国产精品免费在线 | 九九九久久国产免费 | 亚洲一区视频在线播放 | 久草欧美 | 日韩欧美视频在线 | 伊人超碰 | 欧美精品一区二区三区蜜桃视频 |