成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="ofone"><option id="ofone"><code id="ofone"></code></option></button>

<li id="ofone"><source id="ofone"></source></li>

<rt id="ofone"><acronym id="ofone"></acronym></rt><cite id="ofone"></cite>

<rt id="ofone"></rt>

<code id="ofone"></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Llama 4訓練作弊爆出驚天丑聞！AI大佬憤而辭職，代碼實測崩盤全網炸鍋

作者：新智元 2025-04-07 13:24:52

人工智能新聞

Llama 4本該是AI圈的焦點，卻成了大型翻車現場。開源首日，全網實測代碼能力崩盤。更讓人震驚的是，模型訓練測試集被曝作弊，內部員工直接請辭。

Meta前腳剛發Llama 4，后腳就有大佬請辭了！

一畝三分地的爆料貼稱，經過反復訓練后，Llama 4未能取得SOTA，甚至與頂尖大模型實力懸殊。

為了蒙混過關，高層甚至建議：

在后訓練階段中，將多個benchmark測試集混入訓練數據。

在后訓練階段中，將多個benchmark測試集混入訓練數據。

最終目的，讓模型短期提升指標，拿出來可以看起來不錯的結果。

這位內部員工@dliudliu表示，「自己根本無法接受這種做法，甚至辭職信中明確要求——不要在Llama 4技術報告中掛名」。

另一方面，小扎給全員下了「死令」——4月底是Llama 4交付最后期限。

在一系列高壓之下，已有高管提出了辭職。

其實，Llama 4昨天開源之后，并沒有在業內得到好評。全網測試中，代碼能力極差，實力不如GPT-4o。

網友Flavio Adamo使用相同的提示詞，分別讓Llama 4 Maveric和GPT-4o制作一個旋轉多邊形的動畫。

可以看出，Llama 4 Maveric生成的多邊形并不規則而且沒有開口。小球也不符合物理規律，直接穿過多邊形掉下去了。

相比之下GPT-4o制作的動畫雖然也不完美，但至少要好得多。

甚至，有人直接曝出，Llama 4在LMarena上存在過擬合現象，有極大的「作弊」嫌疑。

而如今，內部員工爆料，進一步證實了網友的猜想。

沃頓商學院教授Ethan Mollick一語中的，「如果你經常使用 AI 模型，不難分辨出哪些是針對基準測試進行優化的，哪些是真正的重大進步」。

不過，另一位內部員工稱，并沒有遇到這類情況，不如讓子彈飛一會兒。

內部員工爆料，Llama 4訓練作弊？

幾位AI研究人員在社交媒體上都「吐槽」同一個問題，Meta在其公告中提到LM Arena上的Maverick是一個「實驗性的聊天版本」。

如果看得仔細一點，在Llama官網的性能對比測試圖的最下面一行，寫著「Llama 4 Maverick optimized for conversationality.」

翻譯過來就是「針對對話優化的Llama 4 Maverick」——似乎有些「雞賊」。

這種「區別對待」的會讓開發人員很難準確預測該模型在特定上下文中的表現。

AI的研究人員觀察到可公開下載的Maverick與LM Arena上托管的模型在行為上存在顯著差異。

而就在今天上午，已經有人爆料Llama 4的訓練過程存在嚴重問題！

即Llama 4內部訓練多次仍然沒有達到開源SOTA基準。

Meta的領導層決定在后訓練過程中混合各種基準測試集——讓Llama 4「背題」以期望在測試中取得「好成績」。

這個爆料的原始來源是「一畝三分地」，根據對話，爆料者很可能來自于Meta公司內部。

對話中提到的Meta AI研究部副總裁Joelle Pineau也申請了5月底辭職。（不過，也有網友稱并非是與Llama4相關）

但是根據Meta的組織架構體系，Pineau是FAIR的副總裁，而FAIR實際上是Meta內部與GenAI完全獨立的組織，GenAI才是負責Llama項目的組織。

GenAI的副總裁是Ahmad Al-Dahle，他并沒有辭職。

Llama 4才剛剛發布一天，就出現如此重磅的消息，讓未來顯得撲朔迷離。

代碼翻車，網友大失所望

在昨天網友的實測中，評論還是有好有壞。

但是過去一天進行更多的測試后，更多的網友表達了對Llama 4的不滿。

在Dr_Karminski的一篇熱帖中，他說Llama-4-Maverick——總參數402B的模型——在編碼能力方面大致只能與 Qwen-QwQ-32B相當。

Llama-4-Scout——總參數109B的模型——大概與Grok-2或Ernie 4.5類似。

在評論中，網友響應了這個判斷。

有人說Llama 4的表現比Gemma 3 27B還要差。

有人認為Llama 4的表現甚至和Llama 3.2一樣沒有任何進步，也無法完成寫詩。

其他用戶在測試后也表達了同樣的觀點，Llama 4有點不符合預期。

網友Deedy也表達了對Llama 4的失望，稱其為「一個糟糕的編程模型」。

他表示，Scout (109B) 和Maverick (402B)在針對編程任務的Kscores基準測試中表現不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。

他還給出了貼出了Llama 4兩個模型的一張測試排名，結果顯示這兩個新發布的模型遠遠沒有達到頂尖的性能。

網友anton說，Llama 4「真的有點令人失望」。

他表示自己不會用它來輔助編碼，而Llama 4的定位有點尷尬。

anton認為Llama 4的兩個模型太大了，不太好本地部署。他建議Meta應該推出性能優秀的小模型，而不是去追求成為SOTA。

「因為目前他們根本做不到。」他寫道。

責任編輯：張燕妮來源：新智元

AI 模型測試

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美日韩在线高清 | 黄色片大全在线观看 | 亚洲高清一区二区三区 | 午夜视频在线免费观看 | 91视视频在线观看入口直接观看 | 日韩一级免费大片 | 日本一级淫片免费啪啪3 | 国产午夜精品一区二区三区嫩草 | 免费看黄色视屏 | 欧美专区在线 | 81精品国产乱码久久久久久 | 日韩1区| 日韩免费视频一区二区 | 欧美日韩一区在线播放 | 浮生影院免费观看中文版 | 久久极品 | 欧美精品一区久久 | 亚洲视频中文 | 精品国产乱码久久久久久蜜柚 | 在线成人免费视频 | 久久999 | 亚洲一区不卡在线 | 中文字幕在线电影观看 | 国产美女精品 | 国产96在线 | 成人一区二区三区在线观看 | 久久久久久毛片免费观看 | 欧美黑人一区二区三区 | 免费高清成人 | 韩国av网站在线观看 | 久久综合一区 | 国产精品黄视频 | 日日操夜夜操天天操 | 久久久.com| 91精品国产综合久久精品 | 精品一区二区三区四区在线 | 97国产精品视频人人做人人爱 | 国产精品一区二区免费 | 国产高清在线观看 | 日本精品一区二区三区在线观看 | 在线观看午夜视频 |

<rt id="wokdg"></rt>