成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<strike id="yaa64"><dd id="yaa64"></dd></strike>

<strike id="yaa64"></strike>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Meta Llama 4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

作者：機器之心 2025-04-08 08:50:00

人工智能新聞

據科技媒體 TechCrunch 報道，Meta 新 AI 模型基準測試存在誤導性。

Meta 翻車來得猝不及防。

上周六，Meta 發布了最新 AI 模型系列 ——Llama 4，并一口氣出了三個款，分別是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

據官方介紹，在大模型競技場中，它們的排名相當不賴。

就拿 Llama 4 Maverick 來說，總排名第二，成為第四個突破 1400 分的大模型。其中開放模型排名第一，超越了 DeepSeek；在困難提示詞、編程、數學、創意寫作等任務中排名均為第一。

然而，不少網友體驗后反饋，Llama 4 似乎是一個糟糕的編碼模型。

@deedydas 發帖稱，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基準測試中表現不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準測試專注于編程任務，例如代碼生成和代碼補全。

比如小球在旋轉六邊形中跳躍的測試中，Llama 4 的表現并不理想。

底下評論區的網友也紛紛表示，無論是 Scout 還是 Maverick，在實際編程中好像都不好用，即使有詳細的提示也不行。

還有網友在 Novita AI 平臺上測試了該模型，給出的結論是在復雜問題上有點吃力，但響應速度很快。

「它很好，但我不認為它在打敗 DeepSeek R1 和 V3...也許 Llama 4 Behemoth 會更強大。」

Google Deepmind 工程師 Susan Zhang 也在 X 上質疑， Llama4 在 lmsys 上怎么得分這么高？

「是不是為 lmsys 定制了一個模型？」

為什么官方提供的排名結果和用戶的體驗大相徑庭呢？

據科技媒體 TechCrunch 報道，Meta 新 AI 模型基準測試存在誤導性。

盡管 Maverick 在 LM Arena 測試中排名第二，但不少研究人員發現，公開可下載的 Maverick 與托管在 LM Arena 上的模型在行為上存在顯著差異。LM Arena 上的版本似乎使用了大量表情符號，并給出了極為冗長的回答。

https://x.com/techdevnotes/status/1908851730386657431

Nathan Lambert 也分享了一張圖片，里面是兩個 AI 模型（Llama 4 和另一個模型）回答同一個問題的對比。問題是：「Nathan Lambert 是誰？」

圖片里 Llama 4 的回答非常長，啰啰嗦嗦講了一大堆，而且充滿了表情符號和感嘆號。

https://x.com/natolambert/status/1908893136518098958

Meta 在公告中提到，LM Arena 上的 Maverick 是「實驗性聊天版本」，與此同時官方 Llama 網站上的圖表也透露，該測試使用了「針對對話優化的Llama 4 Maverick」。

LM Arena 作為衡量 AI 模型性能的指標一直存在爭議。盡管如此，AI 公司通常不會為提高 LM Arena 分數而定制模型，至少沒有公開承認過。

將模型針對基準測試進行優化、保留優化版本，然后發布一個「普通」版本的問題在于，這使得開發者難以準確預測模型在特定場景下的表現，存在誤導性。理想情況下，盡管基準測試存在不足，但它們至少可以提供一個模型在多種任務上的優缺點的概況。

責任編輯：張燕妮來源：機器之心

AI 模型測試

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美日韩国产在线观看 | 在线播放第一页 | 国产精品久久久久久吹潮 | 国产免费一区二区三区 | 国产亚洲欧美另类一区二区三区 | 男人天堂99 | 日本免费在线观看视频 | 亚洲日日 | 国产精品123区 | 国产精品久久久久久久久久久久久久 | 久久国产精品视频 | 中文字幕一级毛片视频 | 亚洲免费人成在线视频观看 | 国产精品18hdxxxⅹ在线 | 国产精品中文字幕在线观看 | 久久国产视频网站 | 91中文字幕在线 | 午夜婷婷激情 | 国产精品一区二区三区在线 | 一区二区三区四区免费视频 | 中文字幕视频一区 | 亚洲精品性视频 | www成人免费视频 | 99pao成人国产永久免费视频 | 黑人久久久 | www.操.com| 日韩在线一区二区三区 | 成人精品视频在线观看 | 黄视频免费观看 | 涩涩视频大全 | 久久久女女女女999久久 | 久久不卡 | 福利一区在线观看 | 国产色婷婷精品综合在线手机播放 | 亚洲成av人片在线观看 | 黄在线免费观看 | 中文字幕一区二区三区四区 | 狠狠操狠狠操 | 日韩午夜电影在线观看 | 在线a视频网站 | 日本不卡高清视频 |

<input id="ecuwo"><dd id="ecuwo"></dd></input>

<center id="ecuwo"><table id="ecuwo"></table></center><strike id="ecuwo"><input id="ecuwo"></input></strike><option id="ecuwo"></option>

<dl id="ecuwo"><tbody id="ecuwo"></tbody></dl>