高中生用「我的世界」評測SOTA模型！Claude暫時領先，DeepSeek緊隨其后

作者：新智元 2025-03-31 09:20:00

AI頻頻刷新基準測試紀錄，卻算不清「strawberry」里到底有幾個字母r，在人類看來很簡單的問題卻頻頻出錯。這種反差促使創意測評興起，例如由一名高中生開發的MC-Bench，用Minecraft方塊「競技場」模式評價AI能力。這種新的測評范式，或許更貼合人類對AI直觀、創造性能力的實際期待。

「strawberry中有多少個r」和「在LSAT法學考試中獲得88分」哪個更難？

對于現如今的LMMs來說，通過各種人類「聽著就頭痛，看又看不懂」的基準測試似乎已是家常便飯。

比如DeepSeek-R1發布時在6大基準測試（包含AIME、MMLU、MATH-500等）中超過o1取得領先。

但是對于人類來說依靠直覺和下意識就能回答的問題，LLM們似乎集體有點「發懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績，但卻無法數清楚「strawberry」中有多少r。

除了復雜的基準測試，另外一種評價模型好壞的方式就是「競技場模式」。

比如可以在Chatbot Arena進行上提問投票，選出面對相同問題時的「最佳模型」。

但是這種依靠Chat模式的評測依然不太直觀，于是各種各樣的創意評測就誕生了。

Minecraft Benchmark（或 MC-Bench）像一個競技場，在一對一的挑戰中針對相同提示生成Minecraft作品。

「對決雙方」由用戶投票選擇哪個模型做得更好。

并且只有在投票后才能看到每個Minecraft建筑是由哪個AI制作的。

目前MC-Bench的榜單上，Claude3.7暫時領先，deepseek-r1位列第5，但是考慮到DeepSeek-R1的發布時間，Claude3.7、GPT-4.5和Gemini2.0都相當于是「新一代」的模型了，期待DeepSeek-R2出來后的榜單！

像MC-Bench這樣的創意評測，優勢非常明顯：普通人也能輕松參與，像「選美」一樣簡單直接。

創造MC-Bench項目的僅僅是一名高中生Adi Singh，在將Minecraft用于AI評測這件事情上，Adi Singh覺得Minecraft的價值不在游戲本身。

而是作為有史以來最暢銷的電子游戲，即使對于沒玩過Minecraft游戲的人來說，仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發的，除了Adi Singh外，貢獻者還有7位，包括了「提示詞創意官」、技術主管和開發者們。

并獲得了Anthropic、Google和阿里巴巴等公司的技術支持。

傳統的AI基準測試技術被證明不足，主要體現在以下幾個方面：

主場優勢 (Overfitting to benchmarks)：傳統的 AI 基準測試往往基于特定類型的任務設計，這些任務對 AI 模型來說相對固定且簡單，這種過擬合就像一名「只會背題」的學生。
測試任務過于狹窄：傳統的測試任務多集中于單一維度的能力評估，如語言理解、邏輯推理、數學計算。
缺乏真實環境與開放性：傳統的基準測試通常使用高度抽象化或理論化的環境，而這些環境往往不能反映現實世界中問題的開放性和不確定性。
難以衡量通用性與泛化能力：傳統 AI 基準測試往往無法有效衡量模型的通用性或泛化能力。

因此AI構建者正在轉向更有創意的方法來評估Gen-AI模型的能力。

AI開發者們表示，我們也想玩點「新鮮的」。