驚掉下巴！o3像是一個彌天大謊！基準構建者Epoch AI發長文認錯曝猛料：OpenAI竟獨家訪問數據集，問題和答案可用來訓練！

2025-01-20 13:37:16

近日，海外開始瘋傳 Epoch AI 的副主任 Tamay Besiroglu 的長文，文中表示：他們受到合同限制，無法披露 OpenAI 參與其中，而六名特約數學家均透露，他們不知道 OpenAI 將擁有該基準的獨家訪問權，如果他們知道的話，他們不確定是否還會在其中做出貢獻。

出品 | 51CTO技術棧（微信號：blog51cto）

驚天大瓜來了！

去年年底OpenAI 推出o3推理，在數學、編碼、通用AGI方面都取得了令人的難以置信的類人甚至超人的進展。

但就在昨天，大洋彼岸的一眾人工智能專家開始對“o3”的這些數據表示嚴重的懷疑，甚至將之比作“Theranos”時刻（一家建立在巨大謊言之上的公司，項目參與人員被迫保密，外界卻被蒙在鼓里）。

因為事實證明，o3的發布者 OpenAI 恰恰資助了 FrontierMath ，同時可以訪問大部分數據集。

1.愈演愈烈的o3基準爭議

有關 OpenAI 的 o3 基準測試爭議已經在海外媒體持續發酵。

去年11月，Epoch AI 發布了專門用于評估大語言模型數學能力的精準測試集FrontierMath ，此前業界的觀點對于 o1 的測試表現堪稱“很爛但很擅長找借口”，不過很快 o3 的亮相后，這種刻板印象就來了180度大反轉 ——

12 月，當 OpenAI 宣布其新的 o3 系列模型時，該公司聲稱 o3 在 EpochAI Frontier Math 基準測試中實現了令人印象深刻的 25% 準確率。與此前型號僅 2% 的高分相比，這是一個巨大的飛躍。該基準測試分配 LLM 來解決前所未有的難度的數學問題。

然而，這種“巨大的飛躍”，很有可能是一種“虛假繁榮”！

圖片

于是，包括加里·馬庫斯（Gary Marcus）在內的一眾人工智能專家都開始質疑 OpenAI 的說法的合法性，并將這種情況直接與 Theranos 相提并論。

圖片

主要的信息量，有這么幾個重點，大家可以先行消化——

（1）為基準測試創建問題和解決方案的數學家們并未被告知 OpenAI 資助了這項工作并有權訪問它們。

（2）我們不知道 OpenAI 是否在基準上進行過訓練o3 ，而且不清楚他們的結果是否可信

（3）有些數學家不信任 OpenAI，出于生存風險的擔憂，他們不愿意為通用人工智能能力做出貢獻，他們被誤導了：大多數人沒有懷疑一家前沿人工智能公司為其提供資金。

（4）Epoch AI 表示：“我們的合同明確禁止我們披露有關資金來源的信息，以及 OpenAI 可以訪問大部分但不是全部數據集的事實。”

（5）Epoch AI 與 OpenAI 達成了一項“口頭協議”——好像現在還有人相信 OpenAI 的話：“我們承認 OpenAI 確實可以訪問 FrontierMath 的大部分問題和解決方案，但 OpenAI 未見過的保留集除外，這使我們能夠獨立驗證模型功能。但是，我們有一個口頭協議，這些材料不會用于模型訓練。”

2.構建者 Epoch AI 副主任發長文認錯，曝猛料：OpenAI可以訪問大部分基準問題和答案

Besiroglu 說：“我們犯了一個錯誤，沒有對 OpenAI 的參與更加透明”。他透露，在 o3 模型推出之前，該公司被限制披露合作伙伴關系。

“我們的合同明確禁止我們披露有關資金來源的信息，以及 OpenAI 可以訪問大部分但不是全部數據集的數據這一事實。我們承認這個錯誤，并致力于在未來做得更好，“他補充道。

Besiroglu 還承認，OpenAI 可以訪問大部分 FrontierMath 問題和解決方案。然而，“OpenAI 未見的維持集”有助于驗證模型的能力。

料很猛，這里將長圖中的內容整理如下：

圖片1：

圖片

FrontierMath 由 OpenAI 資助。關于此事的溝通一直不夠透明，許多人，包括在這個數據集上工作的承包商，都沒有意識到這種聯系。在12月20日（OpenAI 宣布 o3 的那一天）之前，沒有公開溝通關于 OpenAI 資助這個基準測試的信息。之前的 Arxiv 版本 v1-v4 沒有承認 OpenAI 的支持。這種支持在12月20日公開。

因為提到 OpenAI 貢獻的 Arxiv 版本正好在 o3 公告之后發布，我猜 Epoch AI 可能與 OpenAI 達成了某種協議，直到那時才公開提及此事。為 FrontierMath 創建問題的數學家并沒有（積極地）被告知 OpenAI 的資助情況。

承包商被指示要對練習題及其解決方案保密，包括不使用 Overleaf 或 Colab 或通過電子郵件討論問題，并簽署保密協議，“以確保問題保持機密”并避免泄露。承包商也沒有在12月20日被告知 OpenAI 的資助情況。我相信有些論文的署名作者并不知道 OpenAI 的資助情況。我認為大多數人，包括大多數承包商的印象是，“這個基準測試的問題和答案將完全保密，并且只會由 Epoch 運行。除非公司從 API 日志中提取問題（這似乎不太可能），否則這不應該是個問題。”現在 Epoch AI 或 OpenAI 并沒有公開表示 OpenAI 可以訪問練習題或答案或解決方案。我間接聽說 OpenAI 確實可以訪問練習題和答案，并且他們用它們進行驗證。我不知道 Epoch AI 和 OpenAI 之間是否有協議禁止他們使用這個數據集進行訓練，并且我有一些證據反對這種協議的存在。在我看來，Epoch AI 應該披露 OpenAI 的資助情況，承包商在選擇是否參與基準測試時，應該有關于他們的工作可能被用于能力的透明信息。

圖片2：

圖片

來自 Epoch AI 的 Tamay 表示：

我們在 OpenAI 的參與方面沒有更加透明，這是一個錯誤。我們被限制在 o3 發布前后披露合作關系，事后看來，我們應該更努力地爭取盡快向基準測試貢獻者透明化。我們的合同明確禁止我們披露資金來源以及 OpenAI 對大部分但不是全部數據集的訪問權限。我們承認這個錯誤，并承諾在未來做得更好。

對于未來的合作，我們將努力在可能的情況下提高透明度，確保貢獻者從一開始就更清楚地了解資金來源、數據訪問和使用目的。雖然我們確實向一些數學家傳達了我們獲得了實驗室資助，但我們沒有系統地這樣做，也沒有提到我們合作的實驗室。這種不一致的溝通是一個錯誤。我們應該從一開始就更努力地爭取這種合作關系的透明度，特別是與創建問題的數學家。

僅在 o3 發布時獲得披露 OpenAI 參與的許可是不夠的。我們的數學家應該知道誰可能訪問他們的工作。盡管我們在合同上受到限制，但我們本應該將與貢獻者的透明度作為與 OpenAI 協議中不可談判的一部分。

關于訓練使用：我們承認 OpenAI 確實可以訪問 FrontierMath 的大部分問題和解決方案，除了一個未被 OpenAI 看到的保留集，這使我們能夠獨立驗證模型能力。然而，我們有一個口頭協議，這些材料將不會被用于模型訓練。

相關 OpenAI 員工的公開溝通將 FrontierMath 描述為一個“嚴格保留的”評估集。雖然這種公開定位與我們的...

3.建立在謊言之上的項目

OpenAI 首席執行官Sam 素有“營銷大師”的稱謂，但營銷和謊言還是有著本質的區別。

有的網友更是將此次o3基準性能爭議擴大到了Sam治下OpenAI的“前科黑歷史”，稱：從欺騙自己的董事會到前雇員必須簽署不詆毀協議，OpenAI的確有誤導行為的歷史，這不奇怪。

圖片

很多人并不清楚 Theranos 這個案例。這里為大家簡單介紹下。

2014 年，被當時硅谷101位CEO、投資人看好的血液檢測初創公司 Theranos （僅次于馬斯克的特斯拉）一路高歌猛進，推銷一項據稱具有革命性的技術。彼時現有技術需要為每項診斷測試提供一瓶血液，而 Theranos 卻聲稱只需一次采血，就能夠進行數百次測試（據說超過 240 次），從膽固醇水平到復雜的基因分析。自動化、快速且廉價，Theranos 似乎正在提供可以徹底改變醫學并挽救全世界生命的技術。

Theranos 的創始人兼首席執行官伊麗莎白·霍姆斯（Elizabeth Holmes）用她的學費從斯坦福大學輟學創立了這家公司，當時 Theranos 正處于巔峰時期，她只有 30 歲。從 Larry Ellison 和 Tim Draper 等人那里籌集了超過 $7億的投資，該公司已成為硅谷的后起之秀，估值超過 $90 億，而 Holmes 的份額超過一半，被譽為女性史蒂夫喬布斯。

唯一的問題是什么？這項技術沒有奏效。

2015 年，兩次獲得普利策獎的《華爾街日報》記者約翰·卡雷魯（John Carreyrou）首次爆料了這個故事。在收到對 Theranos 技術性能的懷疑后，John 的興趣進一步被 Holmes 在斯坦福大學上了兩個學期的化學工程課程后據稱有能力發明開創性的醫療技術而進一步激發了他的興趣。

盡管受到恐嚇和法律訴訟的威脅，Theranos 的前員工 Erika Cheung 和 Tyler Schultz（他們的祖父 George Schultz 是 Theranos 董事會成員）開始與 John 分享他們對公司、技術和實踐的經驗。他們向董事會成員揭露了謊言，揭露了恐嚇和保密的文化，一再未能通過質量保證的技術，以及至關重要的是，發送給真實患者的結果從根本上是錯誤的，據此做出了改變生活的醫療決定。

看起來，這家公司只不過是建立在大膽的謊言之上的。這場“騙局”最終在2015年的揭露之下，走下神壇：這家公司及其CEO都長期陷于美國政府機構源源不斷的調查和各類訴訟中，一地雞毛。

圖片

不過，有網友認為將 OpenAI 比作 Theranos，有點太過了，畢竟Theranos是未能交付（成果）。但好歹 OpenAI 有一個產品（即使它不是通用人工智能（AGI），它的護城河可能很淺）。

但不誠實的印象已經在人們心中養成——

“我認為 Sam Altman 不會被起訴，因為在軟件領域沒有相當于食品和藥物管理局（FDA）和醫療保險與醫療補助服務中心（CMS）的機構，但 Sam Altman和Elizabeth Holmes 都是騙子和欺詐藝術家。這一點在我心中毫無疑問。”

4.重申：大模型真的會數學推理嗎？

長期以來，關于基準測試的有效性一直存在一些爭論。在Apple發表的一篇研究論文中，盡管 LLM 在基準測試中表現出色，但它們并不真正擅長數學推理，它們的輸出來自模式識別和從訓練數據中復制步驟。

甚至 OpenAI 也提到他們不想在 MATH 和 GSM8K 上對 o1 進行基準測試，因為評估方法相當過時，而且大多數 LLM 很容易輸出高分。

OpenAI 在一篇博文中說：“最近的前沿模型在 MATH2 和 GSM8K 上表現得非常好，以至于這些基準測試在區分模型方面不再有效。

鑒于這些擔憂，FrontierMath 分配了 LLM 來解決前所未有的難度的數學問題。根據 Epoch AI 的說法，這些問題需要人類科學家和數學家花費數小時的工作。

Epoch AI 發布 FrontierMath，本意上是為了做一個更為靠譜的評估大型語言模型數學能力的新基準測試。盡管基準測試的問題比以往任何時候都更難解決，但無疑能揭露出LLM 的真實的數學水準。

然而，遺憾的是，OpenAI參與其中的不透明性再次讓這次新基準的數學家們大跌眼鏡：獨家訪問這項測試集+各種保密，還有什么測試意義呢？

想了解更多AIGC的內容，請訪問：

51CTO AI.x社區

http://www.ekrvqnd.cn/aigc/

責任編輯：武曉燕來源： 51CTO技術棧

o3 AI OpenAI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

驚掉下巴！o3像是一個彌天大謊！基準構建者Epoch AI發長文認錯曝猛料：OpenAI竟獨家訪問數據集，問題和答案可用來訓練！

1.愈演愈烈的o3基準爭議

2.構建者 Epoch AI 副主任發長文認錯，曝猛料：OpenAI可以訪問大部分基準問題和答案

3.建立在謊言之上的項目

4.重申：大模型真的會數學推理嗎？