Llama 4在測試集上訓練？內部員工、官方下場澄清，LeCun轉發

作者：機器之心 2025-04-08 13:12:49

大家翹首以盼的 Llama 4，用起來為什么那么拉跨？

Llama 4 這么大的節奏，Meta 終于繃不住了。

本周二凌晨，Meta Gen AI 團隊負責人發表了一份澄清說明（針對外界質疑「在測試集上訓練」等問題），大佬 Yann LeCun 也進行了轉發。

很高興能讓大家用上 Llama 4，我們已經聽說人們使用這些模型取得了很多出色的成果。盡管如此，我們也聽到一些關于不同服務質量參差不齊的報告。由于我們在模型準備就緒后就推出了它們，因此我們預計所有公開部署都需要幾天時間才能完成。我們將繼續努力修復錯誤并吸引合作伙伴。

我們還聽說有人聲稱 Llama 4 在測試集上進行訓練，這根本不是事實，我們永遠不會這樣做。我們愿意理解為：人們看到的不穩定是由于需要穩定部署。相信 Llama 4 模型是一項重大進步，期待與社區的持續合作以釋放它們的價值。

當前 Llama 4 性能不佳是被部署策略給拖累了嗎？

權威的大模型基準平臺 LMArena 也站出來發布了一些 Llama 4 的對話結果，希望部分解答人們的疑惑。

鏈接：https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

可以看到，其中很多同問題的回答上，不論是跟哪家大模型比，Llama 4 的效果都是更好的。

但這究竟是模型真的好，還是 Meta 為了拯救口碑而進行的一系列公關活動？我們需要一起來梳理一下這一事件的發展脈絡。

Llama 4：買家秀 vs. 賣家秀

Llama 4 是 Meta 在 4 月 6 日發布的模型，分為 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 這幾個版本。Meta 官方宣稱新模型可以實現無與倫比的高智商和效率。

在大模型競技場（Arena），Llama 4 Maverick 的總排名第二，成為第四個突破 1400 分的大模型。其中開放模型排名第一，超越了 DeepSeek；在困難提示詞、編程、數學、創意寫作等任務中排名均為第一；大幅超越了自家 Llama 3 405B，得分從 1268 提升到了 1417；風格控制排名第五。

這樣的成績讓開源社區以為又迎來一個新王，于是紛紛下載嘗試。但沒想到的是，這個模型并沒有想象中好用。比如網友 @deedydas 發帖稱，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基準測試中表現不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準測試專注于編程任務，例如代碼生成和代碼補全。

另外還有網友指出，Llama 4 的 OCR、前端開發、抽象推理、創意寫作等問題上的表現能力也令人失望。（參見《Meta Llama 4 被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車》）

于是就有人質疑，模型能力這么拉跨，發布時曬的那些評分是怎么來的？

內部員工爆料

Meta 工程師原貼對線

在關于該模型表現反差的猜測中，「把測試集混入訓練數據」是最受關注的一個方向。

在留學論壇「一畝三分地」上，一位職場人士發帖稱，由于 Llama 4 模型始終未達預期，「公司領導層建議將各個 benchmark 的測試集混合在 post-training 過程中」，ta 因無法接受這種做法而辭職，并指出「Meta 的 VP of AI 也是因為這個原因辭職的」（指的是在上周宣布離職的 Meta AI 研究副總裁 Joelle Pineau）。

由于發帖者沒有實名認證信息，我們無法確認這一帖子的可靠性，相關信息也缺乏官方證實和具體證據。

不過，在該貼的評論區，有幾位 Meta 員工反駁了樓主的說法，稱「并沒有這種情況」，「為了刷點而 overfit 測試集我們從來沒有做過」。

其中一位還貼出了自己的真名 ——「Licheng Yu」。領英資料顯示，Licheng Yu 是 Facebook AI 的研究科學家主管，已經在 Meta 全職工作了五年多，其工作內容包括支持 Llama 4 的后訓練 RL。

如前文所訴，Meta Gen AI 團隊負責人也發推反駁了用測試數據訓練模型的說法。

不過，有些測試者發現了一些有意思的現象。比如普林斯頓大學博士生黃凱旋指出，Llama 4 Scout 在 MATH-Perturb 上的得分「獨樹一幟」，Original 和 MATH-P-Simple 數據集上的表現差距非常大（兩個數據集本身非常相似，后者只在前者的基礎上進行了輕微擾動），這點很令人驚訝。