成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3被曝成績「造假」,60多位數學泰斗集體被耍!OpenAI暗中操控,考卷提前看光

人工智能
又爆大瓜!FrontierMath的o3驚人表現,竟是因OpenAI資助了Epoch AI而提前獲得大部分試題訪問權。OpenAI模型的性能究竟幾分是真,幾分炒作,愈來愈變得撲朔迷離。

不久前,OpenAI在「圣誕12連更」中發布的最強推理模型「o3」,毫無疑問地驚艷了所有人。

尤其是對于新近發布的數學基準FrontierMath,其準確率相比o1直接翻了12倍。

圖片圖片

要知道FrontierMath可是Epoch AI聯合六十余位全世界的數學家,其中包括教授、IMO命題人、菲爾茲獎獲得者,共同推出的。

其包括數百個原創的、格外具有挑戰性的數學問題,每個問題就算是專業數學家,也得需要數小時或數天的時間才能解決。

圖片圖片

正因如此的高難度,o3這種對于FrontierMath驚人的突破才讓大家都對其推理能力而感到不同凡響。

但是,近日曝出一則消息,o3之所以能在短時間之內就相比于o1提升12倍的準確率,是因為OpenAI資助了FrontierMath,并且可以訪問大部分數據集。

但那些為評測集創建問題和解答的數學家們卻完全被蒙在鼓里,根本不知道OpenAI是項目資助方并將獲得數據訪問權。

圖片圖片

簡單來說就是:

  • 我們無從得知OpenAI是否用這個評測集訓練了o3,因此他們宣稱的結果可信度值得質疑
  • 數學家們被有意隱瞞了真相,而大多數人甚至從未懷疑過會有一家AI公司在背后提供資金支持

對此,Epoch AI解釋稱:「我們承認OpenAI確實可以訪問大部分FrontierMath的問題和解決方案,但有一個OpenAI未見過的保留集使我們能夠獨立驗證模型能力。我們有口頭協議這些材料不會用于模型訓練。 」

但是這所謂與OpenAI達成的「口頭協議」——呵,現在還有誰會相信OpenAI的承諾?

圖片圖片

根據網上的各種報道,FrontierMath中的難題本應都是未公開的,目的就是防止AI公司利用這些數據訓練模型。

然而現在看來,「AI公司根本接觸不到這個數據集」這一點,實際上卻是Epoch AI和OpenAI刻意制造出的假象。

但考慮到OpenAI前科累累的欺騙和誤導行為——從蒙騙自家董事會,到強迫前員工簽署秘密的不誹謗協議,應有盡有。

所以這次的事件,多少有種「意料之外,情理之中」的意味了。

Epoch AI首席數學家回應

消息曝出后,Epoch AI首席數學家Elliot Glazer對此進行了回應。

他首先是承認了自己的錯誤,并對因為沒有被告知真相而自主做出貢獻的數學家致以歉意。

而對于o3那驚人的25.2%的準確率,他只是個人層面上表示相信,卻沒有一個真實可靠、有理有據的保證。

圖片圖片

Epoch AI聯創Tamay Besiroglu也正式發布了博客作為回應。

對于此次事件,Tamay給出的解釋是:「我們的合同明確禁止披露資金來源信息以及OpenAI可以訪問大部分(但不是全部)數據集的事實。」

現在回想起來,我們應該更積極地爭取向評測集貢獻者及時公開相關信息的權利。我們對此承擔責任,并承諾未來會做得更好。

雖然我們確實向部分數學家告知了來自lab的資金支持,但這種溝通并不系統,也沒有具體說明合作方。

這種不一致的溝通方式是我們的疏忽。我們應該一開始就堅持爭取公開合作關系的權利,尤其是對那些創建問題的數學家們。

僅在o3發布前后才獲得披露OpenAI參與的許可是遠遠不夠的。參與項目的數學家們有權知道誰可能會接觸到他們的工作。

盡管我們受到合同條款的限制,但我們應該將對貢獻者的透明度作為與OpenAI合作的基本前提。

同時,對于FrontierMath他仍然聲稱:「OpenAI完全支持我們維護獨立的未見測試集的決定——這是防止過擬合和確保準確評估進展的重要保障。」

在交流中,OpenAI的員工將FrontierMath稱為「嚴格保留」的評估集,這種公開表述與我們的理解一致。

而且,我想強調的是,擁有真正未被訓練數據污染的測試集對各個lab都很重要。

從項目伊始,FrontierMath就被設計和定位為一個評估工具,我們相信當前的安排完全符合這一初衷。

對于未來的合作,我們將致力于提高透明度,確保貢獻者能在項目初期就清楚了解資金來源、數據訪問權限和使用目的等信息。

圖片圖片

總結來看,Epoch AI的確意識到了這次事件的嚴重性,但是很多回應依然停留在「公關套詞」層面,并且全程都在甩鍋稱自己不說是因為「合同」的限制。

圖片圖片

已有端倪,激起熱議

一石激起千層浪,紐約大學教授Gary Marcus,亞利桑那州立大學計算機教授Subbarao Kambhampati等大佬,紛紛發文對OpenAI這一的行為表示譴責。

圖片圖片

圖片圖片

圖片圖片

圖片圖片

其實,在去年12月剛發布時,便有參與o3-mini早期測試的研究人員發現了這一端倪。

比如Open Vision Engineering的創始人Akshay Narisetti在推上po出的發現,就從側面印證了這次的爆料:

  • o3-mini在ARC-AGI中的正確率為156/400
  • o3-mini在Frontiermath上的表現并不理想

根據實測結果,模型擅長解決特定類型的問題,但泛化能力還未完全成熟。在結構化任務上表現優異,但在需要多維度推理能力的問題上仍有明顯短板。

圖片圖片

對此,谷歌DeepMind的研究員「Ted Xiao」分析認為,這種影響可以有兩個極端的解釋:

1. 糟糕,OpenAI正在操縱benchmark,還把測試題目泄漏進訓練數據里了!2. OpenAI只是用FrontierMath的私有題庫來指導新訓練數據的整體設計方向和目標,以及設計推理路徑。

當然了,也有沒那么極端的。比如,稍微改改題目內容創建新的訓練數據,這樣從技術角度來說,確實沒有直接用測試數據中的token來訓練。

圖片圖片

如今,SOTA模型之間的競爭已經白熱化。如果使用這種投機取巧的方式,模型在實際應用場景中就會原形畢露(缺乏泛化能力)。

這種冒險頂尖AI實驗室可承擔不起,因此于理來說,OpenAI更可能采用第二種方式。

但即便如此,這一行為依然讓o1和o3在FrontierMath上,表現得比在其他未經優化的復雜推理領域中更亮眼。

不過,這種差距應該不會像某些在MMLU上采用第一種手段的「小語言模型」那樣——評測分數和實際能力簡直是天壤之別。

對于那些堅信OpenAI用了第一種方法、偷偷把測試數據混進去的人,我建議:不妨等等看o3在實際應用場景和其他評測中,跟下一代重點強化推理能力的頂尖模型相比,表現如何。

到時就知道,o3是不是只在FrontierMath上特別強,在其他地方就不行了。

參考資料:

https://x.com/Mihonarium/status/1880944026603376865

https://x.com/xiao_ted/status/1881075585843069258

https://x.com/ElliotGlazer/status/1880812021966602665

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-01-20 13:17:11

2024-12-09 11:06:31

2025-06-03 08:28:00

2025-02-14 10:47:40

2025-06-10 09:22:31

2025-04-21 16:32:29

視覺模型AI

2025-04-21 08:22:25

2025-01-20 15:22:55

2025-04-22 09:18:57

2025-01-20 09:15:16

2025-05-26 03:11:00

2023-09-06 12:56:23

智能訓練

2024-12-23 07:40:00

AI模型數學

2024-09-26 08:21:41

2024-11-14 18:40:57

2009-04-03 08:37:45

FacebookCEO祖克伯格

2024-11-11 13:12:03

2024-12-24 16:15:04

2009-10-10 14:07:56

2025-04-17 06:10:57

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一区二区在线观看 | 懂色一区二区三区免费观看 | 国产成人免费 | 精品中文在线 | 欧美激情在线精品一区二区三区 | 成人免费视频观看 | 亚洲最新网址 | 91久久综合亚洲鲁鲁五月天 | 紧缚调教一区二区三区视频 | 国产精品中文字幕在线 | 91影院| 日韩视频中文字幕 | 午夜精品视频 | 欧美国产精品 | 日本在线一区二区三区 | 亚洲欧美日本在线 | 呦呦在线视频 | 91视频三区 | 国产中文字幕亚洲 | 国产中文字幕在线 | 久久久毛片 | 久久黄色| 日本电影韩国电影免费观看 | 美女精品一区 | 伊人久麻豆社区 | 亚洲精品一区二区三区丝袜 | 99精品免费 | 中文日韩在线视频 | 免费一看一级毛片 | 久久久久久影院 | 国产精品久久 | 国产亚洲成av人片在线观看桃 | 国产aⅴ | 国产亚洲精品久久久优势 | 国产精品区一区二区三区 | 亚洲视频欧美视频 | 色综合99 | 成人精品国产 | 精品亚洲一区二区三区四区五区 | 日韩中文视频 | 91免费入口 |