成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta 開源大模型 Llama-4-Maverick 基準測試排名暴跌,此前被質疑刷榜作弊

人工智能
LMArena 更新了 Meta 最新發布的開源大模型 Llama-4-Maverick 的排名,其從此前的第 2 名直線下降至第 32 名。這證實了此前開發者對 Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質疑。

IT之家 4 月 14 日消息,LMArena 更新了 Meta 最新發布的開源大模型 Llama-4-Maverick 的排名,其從此前的第 2 名直線下降至第 32 名。這證實了此前開發者對 Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質疑。

4 月 6 日,Meta 發布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三個版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,僅次于 Gemini 2.5 Pro。然而,隨著開發者實際使用 Llama 4 大模型開源版的效果陸續曝光,Llama 4 的口碑急轉直下。有開發者發現 Meta 提供給 LMArena 的 Llama 4 版本與提交給社區的開源版本不同,因而質疑 Meta 刷榜作弊。

4 月 8 日,Chatbot Arena 官方發文確認了用戶的上述質疑,公開表示 Meta 提供給他們的是“特供版”,并考慮更新排行榜。根據 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一個實驗性聊天優化版本,當時該版本的排名為第二。修正后的模型為 HuggingFace 開源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活參數、128 個 MoE 專家的指令微調模型。

IT之家注意到,目前開源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名為 32 名,遠低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至連英偉達基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 為何表現不佳?該公司在上周六發布的一張圖表中解釋稱,該模型是“針對對話性進行優化”的。這些優化顯然在 LM Arena 上取得了不錯的效果,因為 LM Arena 的人類評分者會比較不同模型的輸出,并選擇他們更偏好的結果。

由于各種原因,LM Arena 從未被視為衡量 AI 模型性能的最可靠指標。盡管如此,針對基準測試調整模型不僅具有誤導性,還使得開發者難以準確預測該模型在不同場景下的表現。

Meta 的一位發言人向 TechCrunch 表示,Meta 會嘗試“各種類型的定制變體”。“‘Llama-4-Maverick-03-26-Experimental’是我們嘗試的一個針對聊天優化的版本,它在 LM Arena 上也表現不錯,”該發言人說,“我們現在已發布了開源版本,將看看開發者如何根據自己的使用案例定制 Llama 4。我們期待看到他們構建的內容,并期待他們持續的反饋。”

責任編輯:姜華 來源: IT之家
相關推薦

2024-04-08 13:29:52

2023-11-16 12:36:00

AI數據

2023-09-11 15:57:16

人工智能模型GPT-4

2025-04-08 08:50:00

AI模型測試

2023-09-11 13:28:00

AI模型

2025-05-09 08:54:56

2024-04-19 14:52:13

MetaGPT-4模型

2025-04-09 03:33:00

2024-02-22 17:19:26

谷歌模型PC

2024-04-19 07:55:57

Llama 3模型人工智能開源

2025-04-08 12:57:02

2024-05-27 09:01:42

Llama 3大型語言模型人工智能

2024-04-23 07:00:00

2025-04-08 02:26:00

2025-04-07 08:40:00

開源Llama 4大模型

2023-07-19 12:09:36

大模型Llama 2扎克伯格

2023-07-22 13:09:51

模型開源

2025-06-17 09:09:00

2024-07-19 11:50:28

2025-04-07 13:24:52

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91视频在线| 亚洲国产精品99久久久久久久久 | 福利视频一二区 | 日本特黄特色aaa大片免费 | 超碰在线久 | 国产一区中文 | 中文字幕日韩三级 | 久久精品亚洲欧美日韩久久 | 亚洲视频免费一区 | 久久久国产一区二区三区四区小说 | 成人免费视频 | 日韩一区二区在线视频 | 欧美精品久久久久 | 久久99深爱久久99精品 | 中文字幕国产在线 | 国产一级成人 | 午夜tv免费观看 | 国产精品国产精品国产专区不卡 | 一区二区视频在线观看 | 亚洲a视频 | 久久精品天堂 | 国产视频2021 | 日韩在线欧美 | 久久国产一区二区 | 欧美日韩国产一区二区三区 | 欧美激情欧美激情在线五月 | 欧美一级免费看 | 亚洲国产欧美在线 | 成人欧美一区二区三区色青冈 | 欧美黄色一级毛片 | 亚洲免费一区 | 日日摸夜夜添夜夜添特色大片 | 黄色一级大片在线免费看产 | 久久免费视频观看 | 国产精品美女久久久久久久久久久 | 免费在线观看黄视频 | 中文字幕高清视频 | 亚洲精品国产第一综合99久久 | 免费的av| 天天影视网天天综合色在线播放 | 亚洲一av |