o3被曝成績「造假」，60多位數學泰斗集體被耍！OpenAI暗中操控，考卷提前看光

作者：新智元 2025-01-20 12:09:18

人工智能

又爆大瓜！FrontierMath的o3驚人表現，竟是因OpenAI資助了Epoch AI而提前獲得大部分試題訪問權。OpenAI模型的性能究竟幾分是真，幾分炒作，愈來愈變得撲朔迷離。

不久前，OpenAI在「圣誕12連更」中發布的最強推理模型「o3」，毫無疑問地驚艷了所有人。

尤其是對于新近發布的數學基準FrontierMath，其準確率相比o1直接翻了12倍。

圖片

要知道FrontierMath可是Epoch AI聯合六十余位全世界的數學家，其中包括教授、IMO命題人、菲爾茲獎獲得者，共同推出的。

其包括數百個原創的、格外具有挑戰性的數學問題，每個問題就算是專業數學家，也得需要數小時或數天的時間才能解決。

圖片

正因如此的高難度，o3這種對于FrontierMath驚人的突破才讓大家都對其推理能力而感到不同凡響。

但是，近日曝出一則消息，o3之所以能在短時間之內就相比于o1提升12倍的準確率，是因為OpenAI資助了FrontierMath，并且可以訪問大部分數據集。

但那些為評測集創建問題和解答的數學家們卻完全被蒙在鼓里，根本不知道OpenAI是項目資助方并將獲得數據訪問權。

圖片

簡單來說就是：

我們無從得知OpenAI是否用這個評測集訓練了o3，因此他們宣稱的結果可信度值得質疑
數學家們被有意隱瞞了真相，而大多數人甚至從未懷疑過會有一家AI公司在背后提供資金支持

對此，Epoch AI解釋稱：「我們承認OpenAI確實可以訪問大部分FrontierMath的問題和解決方案，但有一個OpenAI未見過的保留集使我們能夠獨立驗證模型能力。我們有口頭協議這些材料不會用于模型訓練。」

但是這所謂與OpenAI達成的「口頭協議」——呵，現在還有誰會相信OpenAI的承諾？

圖片

根據網上的各種報道，FrontierMath中的難題本應都是未公開的，目的就是防止AI公司利用這些數據訓練模型。

然而現在看來，「AI公司根本接觸不到這個數據集」這一點，實際上卻是Epoch AI和OpenAI刻意制造出的假象。

但考慮到OpenAI前科累累的欺騙和誤導行為——從蒙騙自家董事會，到強迫前員工簽署秘密的不誹謗協議，應有盡有。

所以這次的事件，多少有種「意料之外，情理之中」的意味了。

Epoch AI首席數學家回應

消息曝出后，Epoch AI首席數學家Elliot Glazer對此進行了回應。

他首先是承認了自己的錯誤，并對因為沒有被告知真相而自主做出貢獻的數學家致以歉意。

而對于o3那驚人的25.2%的準確率，他只是個人層面上表示相信，卻沒有一個真實可靠、有理有據的保證。

圖片

Epoch AI聯創Tamay Besiroglu也正式發布了博客作為回應。

對于此次事件，Tamay給出的解釋是：「我們的合同明確禁止披露資金來源信息以及OpenAI可以訪問大部分（但不是全部）數據集的事實。」

現在回想起來，我們應該更積極地爭取向評測集貢獻者及時公開相關信息的權利。我們對此承擔責任，并承諾未來會做得更好。

雖然我們確實向部分數學家告知了來自lab的資金支持，但這種溝通并不系統，也沒有具體說明合作方。

這種不一致的溝通方式是我們的疏忽。我們應該一開始就堅持爭取公開合作關系的權利，尤其是對那些創建問題的數學家們。

僅在o3發布前后才獲得披露OpenAI參與的許可是遠遠不夠的。參與項目的數學家們有權知道誰可能會接觸到他們的工作。

盡管我們受到合同條款的限制，但我們應該將對貢獻者的透明度作為與OpenAI合作的基本前提。

同時，對于FrontierMath他仍然聲稱：「OpenAI完全支持我們維護獨立的未見測試集的決定——這是防止過擬合和確保準確評估進展的重要保障。」

在交流中，OpenAI的員工將FrontierMath稱為「嚴格保留」的評估集，這種公開表述與我們的理解一致。

而且，我想強調的是，擁有真正未被訓練數據污染的測試集對各個lab都很重要。

從項目伊始，FrontierMath就被設計和定位為一個評估工具，我們相信當前的安排完全符合這一初衷。

對于未來的合作，我們將致力于提高透明度，確保貢獻者能在項目初期就清楚了解資金來源、數據訪問權限和使用目的等信息。

圖片

總結來看，Epoch AI的確意識到了這次事件的嚴重性，但是很多回應依然停留在「公關套詞」層面，并且全程都在甩鍋稱自己不說是因為「合同」的限制。

圖片

已有端倪，激起熱議

一石激起千層浪，紐約大學教授Gary Marcus，亞利桑那州立大學計算機教授Subbarao Kambhampati等大佬，紛紛發文對OpenAI這一的行為表示譴責。

圖片

其實，在去年12月剛發布時，便有參與o3-mini早期測試的研究人員發現了這一端倪。

比如Open Vision Engineering的創始人Akshay Narisetti在推上po出的發現，就從側面印證了這次的爆料：

o3-mini在ARC-AGI中的正確率為156/400
o3-mini在Frontiermath上的表現并不理想

根據實測結果，模型擅長解決特定類型的問題，但泛化能力還未完全成熟。在結構化任務上表現優異，但在需要多維度推理能力的問題上仍有明顯短板。

圖片

對此，谷歌DeepMind的研究員「Ted Xiao」分析認為，這種影響可以有兩個極端的解釋：

1. 糟糕，OpenAI正在操縱benchmark，還把測試題目泄漏進訓練數據里了！2. OpenAI只是用FrontierMath的私有題庫來指導新訓練數據的整體設計方向和目標，以及設計推理路徑。

當然了，也有沒那么極端的。比如，稍微改改題目內容創建新的訓練數據，這樣從技術角度來說，確實沒有直接用測試數據中的token來訓練。

圖片

如今，SOTA模型之間的競爭已經白熱化。如果使用這種投機取巧的方式，模型在實際應用場景中就會原形畢露（缺乏泛化能力）。

這種冒險頂尖AI實驗室可承擔不起，因此于理來說，OpenAI更可能采用第二種方式。

但即便如此，這一行為依然讓o1和o3在FrontierMath上，表現得比在其他未經優化的復雜推理領域中更亮眼。

不過，這種差距應該不會像某些在MMLU上采用第一種手段的「小語言模型」那樣——評測分數和實際能力簡直是天壤之別。

對于那些堅信OpenAI用了第一種方法、偷偷把測試數據混進去的人，我建議：不妨等等看o3在實際應用場景和其他評測中，跟下一代重點強化推理能力的頂尖模型相比，表現如何。

到時就知道，o3是不是只在FrontierMath上特別強，在其他地方就不行了。

參考資料：

https://x.com/Mihonarium/status/1880944026603376865

https://x.com/xiao_ted/status/1881075585843069258

https://x.com/ElliotGlazer/status/1880812021966602665

責任編輯：武曉燕來源：新智元

OpenAI AI Epoch AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3被曝成績「造假」，60多位數學泰斗集體被耍！OpenAI暗中操控，考卷提前看光

Epoch AI首席數學家回應

已有端倪，激起熱議

參考資料：