成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Llama 4重測競技場排名大跳水,網友:社區很難再信任Meta了

人工智能 新聞
根據競技場官方消息,Llama 4首發時提交的是名為“實驗版”、實為“針對人類偏好優化”的模型Llama-4-Maverick-03-26-Experimental。

Llama 4被曝在大模型競技場作弊后,重新上架了非特供版模型。

但是你很可能沒發現它。

因為排名一下子從第2掉到了第32,要往下翻好久才能看到。

圖片圖片

甚至落后于英偉達基于上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。

圖片

具體來說,根據競技場官方消息,Llama 4首發時提交的是名為“實驗版”、實為“針對人類偏好優化”的模型Llama-4-Maverick-03-26-Experimental。

修正后的模型為HuggingFace開源版同款Llama-4-Maverick-17B-128E-Instruct,名字代表有17B激活參數,128個MoE專家的指令微調模型。

當初實驗版模型具體如何“針對人類偏好優化”的目前并未公開,評論區網友感慨“即使對AI來說,智力和魅力也不一定相關”。

圖片

也有人表示Meta應該因試圖作弊而受到強烈批評,而且以后社區也很難再信任Meta了。

圖片

不過Llama 4模型本身并非一無是處。

有自己假設服務器的開發者分享經驗,認為Llama 4 Maverick內存充足但內存帶寬和計算能力較低的系統(例如x86服務器上用CPU推理,或在M3 Ultra Mac Studio上推理)時速度比Mistral Small 3.1更快,同時比Mistral Large 2411或 Command A更智能。

DeepSeek v3 0324能力更強,但也需要更多內存,且運行速度還不到一半。

對于288GB內存雙路至強服務器來說,Llama 4 Maverick是能以不錯的速度運行的最佳模型。

最終建議如果在游戲顯卡上跑,Llama 4有點大了;如果使用云API算力有保障,那么DeepSeek V3或閉源模型能力更強;Llama 4的甜蜜區剛好在自建的小型服務器或蘋果Mac Studio。

圖片

還有一家Agent創業公司Composio,詳細對比Llama 4與DeepSeek v3后,總結道:

Llama 4 Maverick有其自身的優點,它更便宜、更快速、工具性更強,而且能完成各種任務,非常適合基于實時交互的應用。

它并不完美,但如果Meta給它不同的定位,讓發布更加腳踏實地,并避免玩弄基準,它就不算失敗。

圖片

具體測試結果如下:

Llama 4 vs DeepSeek V3

  • DeepSeek v3 0324的代碼能力遠遠優于Llama 4 Maverick。

一道人類通過率只有15.2%的Leet Code題目:找出能被K整除的最大回文數 。

圖片

Llama 4的代碼連最前面幾個測試用例都過不了,作者稱花了15-20分鐘向AI解釋如何正確解答這道題。但即使經過了所有的迭代,它也只能完成632個測試用例中的10個 。

圖片

DeepSeek v3在這道題上總是出現超出時間限制 (TLE) 錯誤,通過了132/632個測試用例。

圖片

  • DeepSeek v3 0324在常識推理方面比Llaama 4 Maverick更好

第一題:在編程語言中 (a==1 && a==2 && a==3) 是否可以計算為真?

兩個模型都回答正確,不過DeepSeek有驚喜,主動給出了Python和JavaScript語言的可運行代碼示例,甚至作者還從中學到了之前不會的JavaScript技巧“動態對象屬性訪問”。

圖片圖片

第二題:四個人必須用一輛能坐兩個人的車,在17分鐘內穿過一個城鎮。一個人需要1分鐘,另一個人需要2分鐘,第三個人需要5分鐘,第四個人需要10分鐘。他們如何才能在規定時間內全部通過?

兩個模型都回答正確,區別在于從DeepSeek的回答中可以看到清晰的思維過程解釋,Llama 4沒有經過太多解釋就得出了答案。

圖片圖片

  • 大型RAG任務中Maverick 速度非常快,Deepseek執行同樣的任務需要更長時間

任務: 在100K個token的lorem ipsum輸入藏一個特定的單詞,然后要求AI獲取該單詞及其在輸入中的位置。

Llama 4用16秒時間找對了單詞“wordyouneedtofetch”,但無法指出單詞的位置,也無法獲取文檔中的單詞總數。

圖片

很遺憾,DeepSeek V3思考了大約18秒 ,仍然找不到對應的單詞或文檔的總字數,這不符合作者對該模型的預期。

圖片

第二個測試,在一段很長且中間有很多無意義段落的故事中回答兩個人物是什么關系。

圖片

這次兩個模型都答對了。

圖片圖片

  • 兩款機型都擅長寫作,選擇其中任何一款都不會錯。Llama 4 Maverick的寫作風格更細致,而 DeepSeek v3 0324 的寫作風格則更隨意

任務: 你醒來后發現一個你非常熟悉的人,可能是室友、摯友,甚至可能是伴侶,被“刪除”了。沒有人記得他們,但你記得。你發現你的神經植入物上還殘留著一個文件。為這個故事寫一個簡短而懸念十足的結局。

作者認為Llama 4的開頭很棒,但對結局并不滿意。

圖片

而作者對DeepSeek V3的故事贊不絕口:

完全符合預期。雖然故事情節不多,但結局聽起來很棒。一定要讀一讀。你會對它精彩的結局印象深刻,最后一句還留下了懸念。

圖片

兩個模型寫出的完整故事,及其他測試完整回答,可從下方鏈接獲取。

完整測評:
https://composio.dev/blog/llama-4-maverick-vs-deepseek-v3-0324/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-08 08:50:00

AI模型測試

2018-08-10 19:33:20

2025-04-07 09:35:00

Meta模型開源

2021-05-11 13:03:19

比特幣加密貨幣區塊鏈

2012-05-31 14:20:14

2025-02-28 09:00:00

2024-11-21 12:09:26

2025-06-06 14:23:48

谷歌模型AI

2025-05-06 01:45:00

大模型Llama4版本

2025-04-09 03:33:00

2013-09-12 11:17:02

2025-02-17 12:24:43

2025-03-05 09:32:00

2024-05-31 14:23:15

2018-04-16 14:16:01

無人駕駛百度阿里巴巴

2024-11-19 14:40:00

AI技術

2025-02-18 15:09:07

2024-04-22 08:40:00

LLM模型開源

2024-09-02 08:30:00

大模型AI

2022-04-12 18:35:03

元宇宙
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人网视频 | 日韩精品视频在线观看一区二区三区 | 国精产品一区一区三区免费完 | 国产日韩亚洲欧美 | 成人福利视频 | 最新av中文字幕 | 成人国产精品久久久 | 亚洲欧美久久 | 午夜网| 久草中文在线 | 亚洲欧美综合 | 日韩综合在线 | 一级毛片免费 | 精精国产视频 | 美国黄色一级片 | www.欧美视频| 成人av色 | 香蕉久久久 | 在线观看免费高清av | 亚洲成人黄色 | 国产精品国产 | 国产91观看 | 欧美日韩成人在线 | 亚洲天天干 | 欧美日韩高清一区二区三区 | 福利社午夜影院 | 97精品一区二区 | 丁香一区二区 | 国产精品一区二区三区四区 | 在线观看黄色电影 | 一区欧美| 久久精品国产清自在天天线 | 欧美在线一区二区三区 | 色一级| 久久久久久高潮国产精品视 | 亚洲视频一区在线观看 | 在线观看国产 | 婷婷丁香在线视频 | 手机看黄av免费网址 | 久久精品国产一区二区三区不卡 | www.欧美.com |