反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題精華

Aceryt

發布于 2025-4-8 09:27

瀏覽

0收藏

今天凌晨1點半，Meta生成式AI領導者Ahmad Al-Dahle在社交平臺發布了一篇長文，對前天剛開源的Llama 4質疑進行了官方回應。

Ahmad表示，Llama 4一開發完就發布了，所以，不同服務中模型質量難免會有一些差異。Meta很快會修復這些漏洞提升性能。同時否認在測試集上進行了預訓練。

但Meta在官網發布時特意點名DeepSeek，說他們新開源的Llama 4 Maverick在代碼能力可以比肩其新開源的V3模型，國內不少知名媒體也以此為噱頭來寫標題。

現在看來Meta首次反擊是失敗了，期待他們后續優化以及正訓練的2萬億參數的教師模型。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

以下是Ahmad完整聲明：

我們很高興能開始讓大家都用上 Llama 4。我們已經聽說很多人使用這些模型取得了不錯的成果。

話雖如此，我們也聽到了一些關于不同服務中模型質量參差不齊的報告。由于模型一準備好我們就發布了，所以我們預計所有公開的應用實現都需要幾天時間來進行優化調整。我們會繼續進行漏洞修復工作，并與合作伙伴完成對接流程。

我們還聽到有人聲稱Llama 4在測試集上進行了訓練，這純屬無稽之談，我們絕對不會這么做。據我們的判斷，人們所看到的質量差異是由于需要對應用實現進行穩定化處理造成的。

我們相信 Llama 4 模型是一項重大的技術進步，我們期待著與社區合作，充分挖掘其價值。

其實，在Llama 4開源當天就有人質疑其性能。其代碼能力比Grok 3、DeepSeek V3、Sonnet 3.5/7差很多。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

無論是Scout還是Maverick模型，我使用了詳盡的提示詞，在實際編碼方面似乎都幾乎無法使用。

考慮到 Meta 公司付出的努力，我很驚訝一個4000億參數的模型（即便它是混合專家模型）表現竟如此糟糕。它與DeepSeekV3”相比差距甚遠。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

我們對不同平臺提供的Scout和 Maverick進行了測試，結果發現這兩款模型表現都不佳，甚至被參數規模更小的模型比下去了。

在基礎編程任務之外，它們就會出錯，而且在遵循指令方面能力也很弱。Maverick的排名接近谷歌的Gemini 2.5，這一點令人擔憂。它們給人的感覺就像是處于 GPT-3.5 時代的模型。很高興 Meta正在采取措施讓情況穩定下來。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

能夠提前使用 Llama 4 固然很棒，但這里有個關鍵事實：一個強大的模型，其實際效果取決于它的應用實現情況。

你在實驗室里測試的效果，并不等同于用戶在實際使用中所體驗到的效果。在過度炒作和實際操作之間存在的差距，才是真正需要努力去填補的地方。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

鑒于許多運行時環境都是開源的，或許未來在發布產品以免陷入如此混亂的局面之前，你們能夠確保那些修復措施已經落實到位？ “是你使用方式不對” 這種說辭可不大好聽。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

也有網友質疑Meta刷榜：“質量參差不齊”？？我看到的每一項基準測試中，Llama 4 的表現都糟透了，除非你參考的是 LMSYS 的“1417 eon”基準測試結果。

你們向 LMSYS 開放了哪個API呢？因為目前 LMSYS 那邊的模型列表中的表現也非常差。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

Llama 4 就是垃圾，你們在這件事上搞砸得太厲害了。與其誤導大家，還不如承認錯誤。不確定在測試集上動手腳這件事是不是真的，但鑒于它在基準測試中的高分以及在現實世界中糟糕的表現，這種可能性似乎很大。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

在聊天機器人競技場的大語言模型排行榜上，Meta 公司的 Llama 4 Maverick 在編程方面排名第一。

然而，幾乎我給出的每一個難的編程提示或中等難度的編程提示，它都無法完成。在編程方面，它比 DeepSeek V3 - 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro 差得多。

所以，這位網友也在質疑Meta刷榜的問題。

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題-AI.x社區

其實從發布的時間點就能看出來，Meta這次并沒有準備好。作為類ChatGPT的開源鼻祖之一，Llama 4這么重磅的開源模型，居然放在了美國周六的大晚上發布（國內的周日凌晨3點），這太不符合常規了。

按照他們以往發布的Llama系列模型，一般會放在美國周二、周三早上10點左右。所以，在發布Llama 4時他們本身就心虛。

DeepSeek的橫空出世給Meta造成了巨大壓力，其用戶、口碑正在嚴重流失，他們急需一款重磅產品挽回敗局。在今年過年DeepSeek瘋狂刷屏那段時間，Meta還特意組建了“作戰研究室”來研究其模型。但從最終結果來看，依然不是很理想。

此外，由于關稅大戰的原因，Meta的股票遭遇重創，他們也需要一個利好消息來拉升股票，現在適得其反。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/Do-Az455Pr1Q5qOM8682Cw??

標簽

DeepSeek

模型

贊

回復

舉報

社區頭條

回復

相關推薦

Meta 發布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術棧 ? 4394瀏覽 ? 0回復
LM Studio 下載模型失敗怎么辦

dsqslgj ? 2.0w瀏覽 ? 0回復
Meta LlaMA 3模型深度解析

51CTO內容精選 ? 4445瀏覽 ? 0回復
被作者刪庫的Llama 3-V原文再現！效果匹敵GPT4-V，區區不到500 美元，如何做到的

51CTO技術棧 ? 2902瀏覽 ? 0回復
LLama2詳細解讀 | Meta開源之光LLama2是如何追上ChatGPT的？

arnoldzhw ? 3700瀏覽 ? 0回復
Meta發布Llama 3.2：AI大模型再升級，從云端到掌上

芝士AI吃魚 ? 2867瀏覽 ? 0回復
Meta剛開源llama 3.2多模態，就被打敗了！

NLP前沿1 ? 3025瀏覽 ? 0回復
Meta開源多模態模型——Llama 3.2

Aceryt ? 3030瀏覽 ? 0回復
Meta AI發布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%

Halo咯咯 ? 2713瀏覽 ? 0回復
Meta剛剛發布的Llama 3.3正好拿來搞定！

51CTO技術棧 ? 4351瀏覽 ? 0回復
Meta AI 發布 Llama Guard 3-1B-INT4：用于人機對話的緊湊型高性能 AI 審核模型

Halo咯咯 ? 2818瀏覽 ? 0回復
DeepSeek創始人是誰？這個問題DeepSeek也整不會了！

51CTO技術棧 ? 2329瀏覽 ? 0回復
OpenAI開源首個Agent SDK，反擊Manus

Aceryt ? 2310瀏覽 ? 0回復
基于代理知識蒸餾技術克服文檔提取和RAG策略失敗問題?

51CTO內容精選 ? 1541瀏覽 ? 0回復
Llama 4 凌晨震撼發布：Meta開源最強MoE多模態模型，1000萬上下文碾壓行業！

AI博物院 ? 1744瀏覽 ? 0回復
Llama4 剛開源就要被網友玩壞了！

PaperAgent ? 1494瀏覽 ? 0回復
Llama4 模型細節 & 效果實測

NLP工作站 ? 1682瀏覽 ? 0回復
Meta放大招！Llama 4三大模型來襲，開源免費還超能打

Halo咯咯 ? 2538瀏覽 ? 0回復
llama 4，開源！

NLP前沿1 ? 1540瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題精華

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題 精華

目錄

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題精華