llama 4, 開源!
Meta 開源 llama4, 原生多模態模型, 慣例,支持200多種語言,除了中文。
有點堆活,主要特色是,可以單張GPU運行近1000w token上下文的模型,所以直接對標gemini了?
1000萬token上下文窗口意味著什么?相當于可以處理20多小時的視頻內容(因為它是原生多模態模型)。
三款全新模型同步發布
- Scout:17B激活參數(16個專家)。速度極快,原生多模態,智能程度高。達到業界領先的1000萬+token上下文窗口,并且可以在單個GPU上運行!
- Maverick:17B激活參數(128個專家,100萬token上下文窗口)。在多模態領域表現優于GPT-4o和Gemini 2.0 Flash,在廣泛的基準測試中領先,同時在推理和編碼方面達到與DeepSeek v3相當的結果,但激活參數不到后者的一半。它在性能與成本比上表現出色,實驗性聊天版本在LMArena上得分1417 ELO。同樣可在單臺主機上運行!
- Behemoth:288B激活參數(16個專家)。這個模型仍在訓練中,是Meta迄今為止最強大的模型,也是全球最智能的LLM之一。Llama 4 Behemoth在多項STEM基準測試中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。
目前只有Scout和Maverick已經發布。
核心亮點
- 原生多模態架構:所有模型使用早期融合技術,將文本、圖像和視頻無縫整合到統一的模型主干中。
- 采用了混合專家(MoE)架構,MoE設計降低了推理成本同時提高了質量。
- 兩個MoE模型訓練了高達40萬億token,預訓練涵蓋200種語言,性能顯著超越前代產品Llama 3.1 405B。
- Llama 4 Scout擁有1000萬token的上下文窗口。
- 從2T參數的教師模型共同蒸餾,強化了推理能力。
- 減少了政治偏見,拒絕率更加平衡。
- 訓練采用了新策略,包括用于優化超參數的"MetaP"方法、通過自適應過濾增強的實時強化學習,以及從更大的Behemoth模型共同蒸餾。
- 根據Meta的計算,Llama 4 Scout可以在單個Nvidia H100 GPU上運行,而Maverick則需要Nvidia H100 DGX系統或同等配置。
性能基準測試
Llama 4 Scout(17B激活參數,1000萬上下文)在編碼、推理和長文本任務上超越了之前的Llama模型,在圖像理解方面也能與更大的模型相媲美。Llama 4 Maverick(17B激活參數,總計400B)在多語言理解、編碼基準和視覺推理方面超過了GPT-4o和Gemini 2.0。兩款模型都受益于與尚未開源的的Llama 4 Behemoth(288B激活參數)的共同蒸餾,在STEM測評中獲得了更高分數。
LMArena ELO評分與成本對比:"為了提供用戶體驗,每個token在一次性350毫秒預填充延遲后達到30毫秒解碼延遲,我們估計模型每百萬token的服務成本在0.49之間(3:1混合)"
Llama 4 Maverick位居總排名第二 - 成為第四個在Arena上突破1400+的組織!
下載地址:
- ??https://www.llama.com/llama-downloads/??
- ??https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E-Instruct??
慣例,雖然你可以廣泛、免費使用、修改和分發Llama 4,如果你將模型用于商業用途,且你的產品或服務月活用戶超過7億,則需要在繼續合法使用模型前向Meta申請并獲得單獨的許可。
iRoPE:Llama 4 Scout長上下文支持的技術基礎
iRoPE詳解
目標:在較短上下文上訓練,并泛化到極長序列(256K或更多),無需處處使用顯式位置嵌入。它被稱為"iRoPE",因為它使用交錯層("i")和旋轉位置嵌入(RoPE)。理論上通過巧妙結合局部和全局注意力,使上下文長度無界限。
- 具有RoPE的局部可并行分塊注意力在局部注意力塊上使用RoPE。每個塊處理較短的上下文窗口(例如8K token)。在較小序列上訓練更節省內存,仍能捕獲局部依賴關系。這些短上下文注意力層完全可并行化。
- 無位置嵌入的全局注意力某些層作為"全局"注意力層,視野超過8K token。在這些層中省略固定位置嵌入以改善長度外推。目標是讓模型處理遠超訓練中明確見過的序列長度。
- 最大訓練長度:256K 盡管局部和全局注意力是同一模型的一部分,iRoPE只訓練到256K token。超過這個長度,它依靠模型的外推能力而非匹配精確的訓練模式。
- 極長位置注意力權重扁平化在非常大的位置(如數十萬token),注意力權重趨于扁平化。這損害了模型關注相關token的能力。
- 推理時溫度縮放為抵消扁平化注意力,iRoPE在全局注意力層中將查詢向量乘以縮放因子:
???xq *= 1 + log(floor(i / α) + 1) * β?
?這為上下文后期出現的token賦予額外權重,幫助模型在極長序列中保持更有意義的注意力信號。它在保持短程性能(低于α)的同時增強長程推理能力。
- ?
?i?
? = 位置索引 - ?
?α?
? = 閾值(例如8K) - ?
?β?
? = 縮放因子
訓練后處理管道
這個總參數量為2萬億的模型(Behemoth)在訓練后處理方面是個巨大挑戰,他們不得不因應規模重新設計底層RL基礎設施。
訓練后管道簡述:輕量級SFT → 在線RL → 輕量級DPO。過度使用SFT/DPO會過度約束模型并限制在線RL期間的探索能力,因此保持輕量級處理。
首先應用**輕量級監督微調(SFT)**,在篩選的數據子集上進行。他們移除了一半以上的"簡單"提示(由Llama評判識別),以強調更難的問題。提高了模型的基線性能而不過度約束它。
然后切換到**持續在線強化學習(RL)**,配合自適應數據過濾。模型在中高難度提示上生成響應,沒難度的提示被過濾掉。通過訓練和過濾循環,集中精力于具挑戰性的例子,增強數學、編碼和推理能力。
最后進行**直接偏好優化(DPO)**,管理細粒度質量問題。采用更輕量級的DPO階段,避免降低復雜任務的性能。這套流程確保了模型能平衡處理多模態輸入,保持創造力,同時可靠處理高難度提示。
從Llama 4 Behemoth的共同蒸餾進一步提煉了兩個較小的Llama 4模型,以更少的激活參數傳遞高級推理技能,進一步提升了訓練后結果。
本文轉載自??NLP前沿??,作者:NLP前沿
