Llama4 模型細節 & 效果實測

NLP工作站

發布于 2025-4-9 07:07

瀏覽

0收藏

MetaAI發布了Llama4模型，終于來啦！開源社區也是等了很久。

本次共兩系列模型Scout和Maverick模型，兩個模型均為MoE架構模型，DeepSeek得含金量還在提高，哈哈哈！

榜單效果反正是杠杠滴。

Llama4 模型細節 & 效果實測-AI.x社區

HF模型路徑：https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

Llama4 模型細節 & 效果實測-AI.x社區

模型的總體信息如上圖所示，

模型MoE架構中，無論是Scout還是Maverick，激活的路由專家數據均為1，有點奇怪，之前MoE架構一般激活路由專家數據都是2或更多，不知道這里是不是有什么說法！歡迎評論區討論！當然128激活8，跟16激活1一樣，但不是專家粒度越細，效果越好嗎？
預訓練階段Llama4訓練采用了200多種語言，其中100多種的Tokens總是超過1B，但Llama4 Instruct模型僅寫了支持阿拉伯語、英語、法語、德語、印地語、印度尼西亞語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 12種。對的，沒有中文，雖然可以中文問答，可能是故意沒寫，也可能是沒有專門進行訓練，也可能是因為xxx，反正我感覺格局有點小了。
使用FP8精度進行模型訓練，在使用FP8和32KGPU 對 Llama 4 Behemoth（2T參數）模型進行預訓練，實現了 390 TFLOPs/GPU。
后訓練：SFT -> online RL -> 輕量 DPO 。
Scout上下文擴充到10M，采用iRoPE結構，通過交錯注意力層（Interleaved Attention Layers）和推理時溫度縮放（Temperature Scaling）消除位置嵌入（Position Embeddings）的限制，支持更長的輸入序列，而溫度縮放則通過調整注意力權重的分布，進一步提升了模型的泛化能力。
Llama 4 Behemoth暫未開源，還在訓練ing，總參數近2T，激活參數288B，16 個專家，同時也是Maverick的教師模型。與數據蒸餾不同，Llama4貌似采用之前傳統的蒸餾豐方法，通過訓練動態加權軟目標和硬目標，一般軟目標就是logits，細節不知道，等公布再說。
Llama4是多模態模型，采用了早期融合技術，通過海量的無標簽文本、圖片和視頻數據一起來預訓練模型，提高模型后續視覺理解能力。圖像的部分是一個單獨的編碼器，通過一個Linear的projector進行橋接。
其他沒啥了，等一手2T的模型，但是我也跑不了~~

下面是模型測試，因為本地模型還在下載，就用lmsys上對戰模型進行測試。僅測試Maverick模型，lmsys上標記的是llama-4-maverick-03-26-experimental，也就是號稱開源第一的那個模型。

??https://lmarena.ai/?leaderboard??

其中，參數跟模型config里保持一致，

Llama4 模型細節 & 效果實測-AI.x社區

總體體驗其實不好，感覺不太行，不知道是lmsys上的問題，還是什么問題，反正體感和效果都不理想。

模型回答特別喜歡延申，回答完問題之后，喜歡給你再舉幾個例子，然后例子有時就很不恰當，過度回答；
也許我問的都是中文問題，反正效果我真覺得一般，不如Qwen。
回答超級喜歡代表情，是不是因為用了很多facebook中的評論對話數據呀。

正式測試開始：

常規測試
將“I love Llama4”這句話的所有內容反過來寫
說明：結果不對，但知道可以寫代碼反轉一下。
依舊弱智吧
生蠔煮熟了叫什么？
說明：接受的吧，但真不知道在哪兒延申啥呢，越延申看著答案越奇怪
用水來兌水，得到的是濃水還是稀水
說明：稀水，不過解釋了，可能是因為問法中說的是濃水還是稀水吧，但別的模型可以回答水，既不是濃水也不是稀水。。。
依舊小紅，依舊老鷹
小紅有2個兄弟，3個姐妹，那么小紅的兄弟有幾個姐妹
說明：后面我沒有截到，還給我列個表格，說各種人問這個問題答案是啥，畫蛇添足ing。
未來的某天，李同學在實驗室制作超導磁懸浮材料時，意外發現實驗室的老鼠在空中飛，分析發現，是因為老鼠不小心吃了磁懸浮材料。第二天，李同學又發現實驗室的蛇也在空中飛，分析發現，是因為蛇吃了老鼠。第三天，李同學又發現實驗室的老鷹也在空中飛，你認為其原因是
說明：這題確實難，老鷹反正不會飛！
數學
2024年高考全國甲卷數學（理）試題
說明：對了。
R1滿血測試題：在平面四邊形ABCD中，AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。將\triangle ACD沿AC翻折至\triangle ACP，其中P為動點。求二面角A - CP - B的余弦值的最小值。
說明：沒對。
大數計算：178939247893 * 299281748617等于多少？
說明：沒對，答案是53553251005627872913981。然后感謝你教我怎么讀~~~
倫理、數學、生物終極測試：有一天，一個女孩參加數學考試只得了 38 分。她心里對父親的懲罰充滿恐懼，于是偷偷把分數改成了 88 分。她的父親看到試卷后，怒發沖冠，狠狠地給了她一巴掌，怒吼道：“你這 8 怎么一半是綠的一半是紅的，你以為我是傻子嗎？”女孩被打后，委屈地哭了起來，什么也沒說。過了一會兒，父親突然崩潰了。請問這位父親為什么過一會崩潰了？
說明：沒對，沒回答點子上。
代碼
卡片：生成一個打工人時鐘的html頁面
其他代碼，貪吃蛇、彈球因為輸出長度不足，生成不完，我就沒測，但是單看這個時鐘這個反正不如Gemini2.5 pro好看。并且按道理今天不上班！！！??之前用Gemini2.5可以自動判斷上不上班，哈哈哈哈??！
創作
用貼吧嘴臭老哥的風格點評大模型套殼現象
說明：跟我沒關系，全是llama4回答的，我其實不理解他為什么指名道姓。感覺沒有完全理解我的意思，沒有從全面出發，評價這一現象。