成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題 精華

發布于 2025-4-8 09:27
瀏覽
0收藏

今天凌晨1點半,Meta生成式AI領導者Ahmad Al-Dahle在社交平臺發布了一篇長文,對前天剛開源的Llama 4質疑進行了官方回應。


Ahmad表示,Llama 4一開發完就發布了,所以,不同服務中模型質量難免會有一些差異。Meta很快會修復這些漏洞提升性能。同時否認在測試集上進行了預訓練。


但Meta在官網發布時特意點名DeepSeek,說他們新開源的Llama 4 Maverick在代碼能力可以比肩其新開源的V3模型,國內不少知名媒體也以此為噱頭來寫標題。


現在看來Meta首次反擊是失敗了,期待他們后續優化以及正訓練的2萬億參數的教師模型。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

以下是Ahmad完整聲明:


我們很高興能開始讓大家都用上 Llama 4。我們已經聽說很多人使用這些模型取得了不錯的成果。


話雖如此,我們也聽到了一些關于不同服務中模型質量參差不齊的報告。由于模型一準備好我們就發布了,所以我們預計所有公開的應用實現都需要幾天時間來進行優化調整。我們會繼續進行漏洞修復工作,并與合作伙伴完成對接流程。


我們還聽到有人聲稱Llama 4在測試集上進行了訓練,這純屬無稽之談,我們絕對不會這么做。據我們的判斷,人們所看到的質量差異是由于需要對應用實現進行穩定化處理造成的。


我們相信 Llama 4 模型是一項重大的技術進步,我們期待著與社區合作,充分挖掘其價值。


其實,在Llama 4開源當天就有人質疑其性能。其代碼能力比Grok 3、DeepSeek V3、Sonnet 3.5/7差很多。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

無論是Scout還是Maverick模型,我使用了詳盡的提示詞,在實際編碼方面似乎都幾乎無法使用。

考慮到 Meta 公司付出的努力,我很驚訝一個4000億參數的模型(即便它是混合專家模型)表現竟如此糟糕。它與DeepSeekV3”相比差距甚遠。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

我們對不同平臺提供的Scout和 Maverick進行了測試,結果發現這兩款模型表現都不佳,甚至被參數規模更小的模型比下去了。


在基礎編程任務之外,它們就會出錯,而且在遵循指令方面能力也很弱。Maverick的排名接近谷歌的Gemini 2.5,這一點令人擔憂。它們給人的感覺就像是處于 GPT-3.5 時代的模型。很高興 Meta正在采取措施讓情況穩定下來。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

能夠提前使用 Llama 4 固然很棒,但這里有個關鍵事實:一個強大的模型,其實際效果取決于它的應用實現情況。


你在實驗室里測試的效果,并不等同于用戶在實際使用中所體驗到的效果。在過度炒作和實際操作之間存在的差距,才是真正需要努力去填補的地方。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

鑒于許多運行時環境都是開源的,或許未來在發布產品以免陷入如此混亂的局面之前,你們能夠確保那些修復措施已經落實到位? “是你使用方式不對” 這種說辭可不大好聽。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

也有網友質疑Meta刷榜:“質量參差不齊”??我看到的每一項基準測試中,Llama 4 的表現都糟透了,除非你參考的是 LMSYS 的“1417 eon”基準測試結果。


你們向 LMSYS 開放了哪個API呢?因為目前 LMSYS 那邊的模型列表中的表現也非常差。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

Llama 4 就是垃圾,你們在這件事上搞砸得太厲害了。與其誤導大家,還不如承認錯誤。不確定在測試集上動手腳這件事是不是真的,但鑒于它在基準測試中的高分以及在現實世界中糟糕的表現,這種可能性似乎很大。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

在聊天機器人競技場的大語言模型排行榜上,Meta 公司的 Llama 4 Maverick 在編程方面排名第一。


然而,幾乎我給出的每一個難的編程提示或中等難度的編程提示,它都無法完成。在編程方面,它比 DeepSeek V3 - 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro 差得多。

所以,這位網友也在質疑Meta刷榜的問題。

反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題-AI.x社區

其實從發布的時間點就能看出來,Meta這次并沒有準備好。作為類ChatGPT的開源鼻祖之一,Llama 4這么重磅的開源模型,居然放在了美國周六的大晚上發布(國內的周日凌晨3點),這太不符合常規了。


按照他們以往發布的Llama系列模型,一般會放在美國周二、周三早上10點左右。所以,在發布Llama 4時他們本身就心虛。


DeepSeek的橫空出世給Meta造成了巨大壓力,其用戶、口碑正在嚴重流失,他們急需一款重磅產品挽回敗局。在今年過年DeepSeek瘋狂刷屏那段時間,Meta還特意組建了“作戰研究室”來研究其模型。但從最終結果來看,依然不是很理想。


此外,由于關稅大戰的原因,Meta的股票遭遇重創,他們也需要一個利好消息來拉升股票,現在適得其反。


本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/Do-Az455Pr1Q5qOM8682Cw??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91精品国产综合久久久久久首页 | 日韩有码在线观看 | 精品久久久久久 | 国产专区视频 | av一区二区三区 | 中文字幕国产 | 北条麻妃一区二区三区在线视频 | 日本久久网站 | 亚洲一区二区在线视频 | 91av视频在线免费观看 | 夜夜爽99久久国产综合精品女不卡 | 日韩一区二区三区在线 | 成人免费久久 | 免费高潮视频95在线观看网站 | 欧美寡妇偷汉性猛交 | av中文字幕网 | 国产精品成人一区二区三区 | 能看的av网站 | 久久久婷| 亚洲国产成人精品女人久久久 | 日韩欧美国产电影 | 午夜影院在线观看视频 | 免费一区 | 一区二区福利视频 | 成人一区精品 | 福利一区视频 | 特黄毛片 | 欧美激情国产日韩精品一区18 | 亚洲精品福利在线 | 午夜小视频免费观看 | 在线观看www | 婷婷国产一区二区三区 | 成人日b视频 | 亚洲毛片在线 | 求毛片| 国产精品成人在线播放 | 久草在线青青草 | 成人在线精品视频 | 日韩有码一区 | 国产视频一区在线 | 中文字幕视频一区二区 |