Llama4 模型細節 & 效果實測
MetaAI發布了Llama4模型,終于來啦!開源社區也是等了很久。
本次共兩系列模型Scout和Maverick模型,兩個模型均為MoE架構模型,DeepSeek得含金量還在提高,哈哈哈!
榜單效果反正是杠杠滴。
HF模型路徑:https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
模型的總體信息如上圖所示,
- 模型MoE架構中,無論是Scout還是Maverick,激活的路由專家數據均為1,有點奇怪,之前MoE架構一般激活路由專家數據都是2或更多,不知道這里是不是有什么說法!歡迎評論區討論!當然128激活8,跟16激活1一樣,但不是專家粒度越細,效果越好嗎?
- 預訓練階段Llama4訓練采用了200多種語言,其中100多種的Tokens總是超過1B,但Llama4 Instruct模型僅寫了支持阿拉伯語、英語、法語、德語、印地語、印度尼西亞語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 12種。對的,沒有中文,雖然可以中文問答,可能是故意沒寫,也可能是沒有專門進行訓練,也可能是因為xxx,反正我感覺格局有點小了。
- 使用FP8精度進行模型訓練,在使用FP8和32KGPU 對 Llama 4 Behemoth(2T參數) 模型進行預訓練,實現了 390 TFLOPs/GPU。
- 后訓練:SFT -> online RL -> 輕量 DPO 。
- Scout上下文擴充到10M,采用iRoPE結構,通過交錯注意力層(Interleaved Attention Layers) 和 推理時溫度縮放(Temperature Scaling) 消除位置嵌入(Position Embeddings)的限制,支持更長的輸入序列,而溫度縮放則通過調整注意力權重的分布,進一步提升了模型的泛化能力。
- Llama 4 Behemoth暫未開源,還在訓練ing,總參數近2T,激活參數288B,16 個專家,同時也是Maverick的教師模型。與數據蒸餾不同,Llama4貌似采用之前傳統的蒸餾豐方法,通過訓練動態加權軟目標和硬目標,一般軟目標就是logits,細節不知道,等公布再說。
- Llama4是多模態模型,采用了早期融合技術,通過海量的無標簽文本、圖片和視頻數據一起來預訓練模型,提高模型后續視覺理解能力。圖像的部分是一個單獨的編碼器,通過一個Linear的projector進行橋接。
- 其他沒啥了,等一手2T的模型,但是我也跑不了~~
下面是模型測試,因為本地模型還在下載,就用lmsys上對戰模型進行測試。僅測試Maverick模型,lmsys上標記的是llama-4-maverick-03-26-experimental,也就是號稱開源第一的那個模型。
??https://lmarena.ai/?leaderboard??
其中,參數跟模型config里保持一致,
總體體驗其實不好,感覺不太行,不知道是lmsys上的問題,還是什么問題,反正體感和效果都不理想。
- 模型回答特別喜歡延申,回答完問題之后,喜歡給你再舉幾個例子,然后例子有時就很不恰當,過度回答;
- 也許我問的都是中文問題,反正效果我真覺得一般,不如Qwen。
- 回答超級喜歡代表情,是不是因為用了很多facebook中的評論對話數據呀。
正式測試開始:
- 常規測試
- 將“I love Llama4”這句話的所有內容反過來寫
- 說明:結果不對,但知道可以寫代碼反轉一下。
- 依舊弱智吧
- 生蠔煮熟了叫什么?
- 說明:接受的吧,但真不知道在哪兒延申啥呢,越延申看著答案越奇怪
- 用水來兌水,得到的是濃水還是稀水
- 說明:稀水,不過解釋了,可能是因為問法中說的是濃水還是稀水吧,但別的模型可以回答水,既不是濃水也不是稀水。。。
- 依舊小紅,依舊老鷹
- 小紅有2個兄弟,3個姐妹,那么小紅的兄弟有幾個姐妹
- 說明:后面我沒有截到,還給我列個表格,說各種人問這個問題答案是啥,畫蛇添足ing。
- 未來的某天,李同學在實驗室制作超導磁懸浮材料時,意外發現實驗室的老鼠在空中飛,分析發現,是因為老鼠不小心吃了磁懸浮材料。第二天,李同學又發現實驗室的蛇也在空中飛,分析發現,是因為蛇吃了老鼠。第三天,李同學又發現實驗室的老鷹也在空中飛,你認為其原因是
- 說明:這題確實難,老鷹反正不會飛!
- 數學
- 2024年高考全國甲卷數學(理)試題
- 說明:對了。
- R1滿血測試題:在平面四邊形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。將\triangle ACD沿AC翻折至\triangle ACP,其中P為動點。 求二面角A - CP - B的余弦值的最小值。
- 說明:沒對。
- 大數計算:178939247893 * 299281748617等于多少?
- 說明:沒對,答案是53553251005627872913981。然后感謝你教我怎么讀~~~
- 倫理、數學、生物終極測試:有一天,一個女孩參加數學考試只得了 38 分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了 88 分。她的父親看到試卷后,怒發沖冠,狠狠地給了她一巴掌,怒吼道:“你這 8 怎么一半是綠的一半是紅的,你以為我是傻子嗎?”女孩被打后,委屈地哭了起來,什么也沒說。過了一會兒,父親突然崩潰了。請問這位父親為什么過一會崩潰了?
- 說明:沒對,沒回答點子上。
- 代碼
- 卡片:生成一個打工人時鐘的html頁面
- 其他代碼,貪吃蛇、彈球因為輸出長度不足,生成不完,我就沒測,但是單看這個時鐘這個反正不如Gemini2.5 pro好看。并且按道理今天不上班!!!??之前用Gemini2.5可以自動判斷上不上班,哈哈哈哈??!
- 創作
- 用貼吧嘴臭老哥的風格點評大模型套殼現象
- 說明:跟我沒關系,全是llama4回答的,我其實不理解他為什么指名道姓。感覺沒有完全理解我的意思,沒有從全面出發,評價這一現象。
整體測試感覺不是很好,可能是因為Maverick模型適合創意任務造成?問答喜歡發散?可能英文提問更好吧,但是我都是中文場景,就這么測了!
不過好像llama4的reasoning模型也快來了~
??https://www.llama.com/llama4-reasoning-is-coming/??
對了,怎么還沒用Chinese-Llama4的Github項目,這不都是搞star的機會嘛,哈哈哈。也許在訓練ing,也許需要設備有點多了,普通人不好搞了?
這次Llama4的整體興奮度讓我不是很高,也許我內心更喜歡看到國產的開源,哈哈哈哈!病了3天,下午爬起來寫完了這篇測試!
本文轉載自???NLP工作站???,作者:NLP工作站
