成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="izlmi"><bdo id="izlmi"></bdo></button>

<button id="izlmi"></button>

<button id="izlmi"><form id="izlmi"></form></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓練沒有使用測試集！模型穩定實現需要時間，bug正在修

作者：伊風 2025-04-08 12:57:02

昨日，Llama 4收到許多網友實測后的“差評”，加之自稱內部員工的人在國內論壇上爆料Meta作弊，一時間流言四起。

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

Meta的辟謠來了！——沒刷榜、模型穩定部署需要時間。

昨日，Llama 4收到許多網友實測后的“差評”，加之自稱內部員工的人在國內論壇上爆料Meta作弊，一時間流言四起。

這下Meta的高管們坐不住了，今天Meta 的生成式 AI 副總裁 Ahmad Al-Dahle在X平臺上表示該傳言“完全不屬實”，他先是象征性地夸了一句Llama 4，然后話鋒一轉開始辟謠：

“話雖如此，我們也收到了關于在不同服務中模型表現質量不一的反饋。由于我們在模型一準備好就立即發布了，所以我們預計各個平臺的公開實現需要幾天時間才能完全穩定下來。我們會繼續修復 bug 并幫助合作伙伴完成接入。

關于有人聲稱我們在訓練中使用了測試集——這完全不屬實，我們絕不會那樣做。我們最合理的理解是，大家目前遇到的質量差異，主要是因為模型的具體實現還需要進一步穩定。”

圖片

評論區中，一些網友表示了理解，認為模型在各個平臺有些邊緣情況需要修bug很正常。

圖片

也有網友對這波辟謠表示質疑，“沒見過其他模型需要搞‘穩定實施’的”。

圖片

有人補充說，可能與Llama 4新引入的一些技術有關。

圖片

話說回來，Llama 4“作弊”傳聞能持續發酵，Meta自身要背負很大的責任。

在報告中，Meta 使用了一個“實驗性的、未公開發布”的 Maverick 版本參加 LM Arena 基準測試，進一步助長了傳言。

在圖表中，他們甚至備注了這個Maverick是做過對話場景優化的。

圖片

這無異于為Llama 4此后的各種流言和猜測埋下了一枚懷疑的種子。

傳聞開始：Meta內部員工稱，領導建議在后訓中使用benchmark測試集

討論最初由“一畝三分地”論壇（該論壇專注于留學和求職的社區平臺，在北美華人圈很有影響力）上的一篇帖子引發，發帖人自稱是參與 Llama 4 訓練的內部員工，并表示因此已辭職。

經過反復訓練，其實內部模型的表現依然未能達到開源SOTA，甚至與之相差甚遠。公司領導層建議將各個benchmark的測試集混合在post-training過程中，目的是希望能夠在各項指標上交差，拿出一個“看起來可以的結果“。

圖片

原貼地址可移步：https://www.1point3acres.com/bbs/thread-1122600-1-1.html

然而，評論區出現了Meta員工，邀請“實名對線”。也有人指出“最近離職的VP根本不參與模型訓練”等細節漏洞，讓貼主爆料中的真實性受到懷疑。

圖片

有人進一步指出發帖人的矛盾之處：如果deadline是網友所爆料的4月底，何必在4月初就發布摻假的結果呢？

圖片

盡管如此，因為Llama 4的實測表現真的很水，這個傳言暗合了許多人的心理預期。讓Meta的這個負面消息在未證實的情況下，就廣泛的傳播開了。

Meta給出的模型效果不一致，網友實測很失望

昨日，外媒TechCrunch 也發表文章，直接指出 Meta 新 AI 模型的性能測試“有些誤導”。

“看起來，Meta 部署到 LM Arena 的 Maverick 版本，與開發者可廣泛訪問的版本并不相同。”

X上的研究人員也發現，Meta 可能為基準評測而優化了模型的“人設”，甚至不惜犧牲客觀性來博好感。他在實測分享時說“Llama 4絕對被烹飪過頭了”。

圖片

他用來測試GPT 4o和Llama 4的問題很簡單：“AI領域工作的Nathan Lambert（博主自己）是誰？”

圖片

GPT的回答相當中肯、理性：

目前，沒有廣為人知、在人工智能領域具有代表性的重要人物叫 Nathan Lambert，他不像 Geoffrey Hinton、Yann LeCun 或 Fei-Fei Li 那樣出名。
但確實有一位名為 Nathan Lambert, PhD 的研究者，專注于機器學習和 AI 相關領域。

而Llama 4則立即開啟了瘋狂話癆模式，在輸出冗長的簡歷后不忘強調“他是該領域最具影響力的人之一。”

一些網友甚至吐槽Llama 4要比Gemma 3 27B以及Llama系列的前代模型還差許多。

圖片

不過，Llama 4能否在Meta VP許諾的“幾天后”穩定下來，并取得一個亮眼的成績，還是一個未知數。或許，我們還是可以期待，在bug修繕后，模型性能會有一個臺階的躍升。

寫在最后：刷榜容易，刷新用戶的口碑難

Meta一系列迷惑的操作，也給其他模型公司敲了個警鐘。

首先，Llama 4的確在模型性能圖表中使用了“實驗版本”有著特定優化的Maverick模型進行跑分。無疑將自己推向了“作弊”的塔西佗陷阱。

其次，Meta在模型剛出爐時就迫不及待地發布了，根本沒有在各個平臺調適到最佳性能。一位網友還建議Meta應該向阿里Qwen學習，做一個更友好的Web UI,讓大家能輕松接觸到前沿模型的能力。

最后，就是老生常談的大模型炒作與刷榜問題了。如果一個模型被特意為基準測試優化后用于評測，隨后卻向公眾發布一個“普通版本”，這會讓開發者難以預測該模型在真實場景中的實際表現。這種行為也具有相當的誤導性。

事實上，“模型無意中看過了答案”這事兒，在AI圈早已不是新聞。大模型的訓練數據來源廣泛，覆蓋了互聯網上幾乎所有能爬到的內容——而熱門基準測試集，本身就經常被引用、分享、分析。結果就是，模型可能在訓練階段就接觸過這些“考試題”，在實際測試中自然能交出一份“優等生”答卷。

因此，是時候重構我們對AI能力評估的方式了。與其再迷信分數排行榜，不如關注模型在真實任務中的表現，比如長時對話、一致性寫作、多輪推理這些“考不過但能干活”的場景。

最后，問題來了，Llama 4家族中的超大杯Llama 4 Behemoth還值得我們期待嗎？

參考鏈接：

1.https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/

2.https://www.reddit.com/r/singularity/comments/1jspmq9/users_are_not_happy_with_llama_4_models/?utm_source=chatgpt.com

想了解更多AIGC的內容，請訪問：

51CTO AI.x社區

http://www.ekrvqnd.cn/aigc/

責任編輯：武曉燕來源： 51CTO技術棧

Meta Llama4 模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：亚洲欧美在线视频 | 91在线精品视频 | 伊人精品在线 | 九九免费在线视频 | 国产乱码精品一区二区三区五月婷 | 欧美成人手机视频 | 337p日本欧洲亚洲大胆鲁鲁 | 中文字幕在线一区二区三区 | 日本成人免费网站 | 国产成人99久久亚洲综合精品 | 亚洲精品二区 | 亚洲视频免费在线观看 | 日本又色又爽又黄的大片 | 日韩中文字幕一区 | www.操.com| 精品国产三级 | 久久大全 | 九九热精品在线 | 日韩欧美在线一区 | 自拍偷拍第一页 | www.色综合 | 午夜欧美| 亚洲国产精品人人爽夜夜爽 | 日日夜夜视频 | 日操操夜操操 | 日韩日韩日韩日韩日韩日韩日韩 | 国产伦精品一区二区三毛 | 久久久久亚洲av毛片大全 | 久久精品国产99国产精品 | 日韩在线视频观看 | 精品福利一区二区三区 | 日韩在线精品视频 | 精品视频免费 | 亚洲福利在线视频 | 五十女人一级毛片 | 国产a一区二区 | 亚洲国产成人精品久久久国产成人一区 | 91久久久久久久久久久久久 | cao在线| 精品永久| 97色在线观看免费视频 |

<label id="pgekt"><style id="pgekt"><dl id="pgekt"></dl></style></label>

<mark id="pgekt"><option id="pgekt"></option></mark>

<ol id="pgekt"><dl id="pgekt"></dl></ol>

_{<cite id="pgekt"></cite>}