陶哲軒聯手60多位數學家出題，世界頂尖模型通過率僅2%！專家級數學基準，讓AI再苦戰數年

作者：新智元 2024-11-11 13:12:03

Epoch AI推出數學基準FrontierMath，目前前沿模型測試成功率均低于2%！OpenAI研究科學家Noam Brown說道：「我喜歡看到新評估的前沿模型通過率如此之低。這種感覺就像一覺醒來，外面是一片嶄新的雪地，完全沒有人跡。」或許，FrontierMath測試成功率突破的那一天，會是AI發展過程中一個全新的里程碑。

數學為評估復雜推理提供了一個獨特而合適的測試平臺。它需要一定的創造力和精確的邏輯鏈條——通常涉及復雜的證明，這些證明必須縝密地籌劃和執行。同時，數學還允許對結果進行客觀驗證。

在鋪天蓋地的宣傳中，LLM看起來已經攻破了數學大關。但果真如此嗎？

不久前，來自蘋果的研究院團隊證明，就算是在數學這些基礎科學方面最先進的o1模型，其卓越的表現也是來源于對特定數據集針對性的持續優化。

所以為了更好的檢驗模型對于數學問題的理解與解決能力，我們需要一個更加全面而行之有效的數學測試基準。

近日，Epoch AI聯合六十余位全世界的數學家，其中包括教授、IMO命題人、菲爾茲獎獲得者，共同推出了全新的數學基準FrontierMath。其包括數百個原創的、格外具有挑戰性的數學問題，旨在評估AI系統中的高級推理能力。

研究團隊基于這個測試基準評估了六個前沿的模型，它們的成功率竟然都低于2%！

圖片

論文地址：https://arxiv.org/abs/2411.04872

論文特意致謝了陶哲軒為FrontierMath基準貢獻了一些問題

具體來說，這些數學問題從奧賽難度到當今的數學前沿，包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽象問題，而它們也通常需要數小時或數天的時間才能被專業數學家解決。

FrontierMath涉及的數學領域

這一測試集的發布一下炸出了不少AI大佬。

OpenAI研究員Clive Chan

德撲之父，OpenAI研究科學家Noam Brown

Anthropic聯創Jack Clark

知名AI大牛Andrej Karpathy還發了一篇長帖「Moravec悖論在大語言模型評估中的體現」：

圖片

我對這個新的前沿數學基準測試感到驚訝，因為大語言模型在其中僅能解決2%的問題。引入這個基準測試的原因是大語言模型在現有數學基準測試中表現得越來越出色。有趣的問題在于，盡管從許多評估來看，大語言模型在數學和編程等領域已經逐漸接近頂級專家的水平，但你還是不會選擇它們來完成對人類本身來講最容易的工作。它們可以解決復雜的封閉問題，只要你在提示詞中恰當地呈現問題描述，但它們在自主且連貫地解決長問題序列方面卻很艱難，而這對人類來說是非常容易的。

這就是Moravec悖論的隱性體現，他在30多年前觀察到，人類認為簡單或困難的事情，對于計算機來說可能卻恰恰相反。例如，人類對計算機下棋感到非常驚訝，但下棋對計算機來說卻很簡單，因為這是一個封閉的、確定性的系統，具有離散的動作空間、完全可觀測性等等。反過來，人類可以系鞋帶或折疊襯衫，并不覺得這有什么了不起，但這實際上是一個極其復雜的傳感運動任務，對硬件和軟件的最先進技術也還是一個挑戰。這就像OpenAI前段時間發布的魔方項目，大多數人關注的是解魔方本身（這很簡單），卻不是讓機器人用手去扭合一面魔方這種其實極其困難的任務。

所以我非常喜歡這個FrontierMath基準測試，我們應該多做一些這樣的測試。但我也認為這是一個有趣的挑戰，我們如何為所有那些「簡單」但實際上很難的事情創建評估。非常長的上下文窗口、連貫性、自主性、常識、有效的多模態輸入輸出……我們如何構建好的「簡單工作」評估？這些是你期望團隊中任何入門級實習生都能完成的事情。

除了AI大佬們在紛紛討論，網友們也炸了鍋——

網友「Chubby」表達了自己的興奮與期待！

圖片