成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

llama 4, 開源!

發布于 2025-4-10 07:06
瀏覽
0收藏

Meta 開源 llama4, 原生多模態模型, 慣例,支持200多種語言,除了中文。

llama 4, 開源!-AI.x社區

有點堆活,主要特色是,可以單張GPU運行近1000w token上下文的模型,所以直接對標gemini了?

llama 4, 開源!-AI.x社區

1000萬token上下文窗口意味著什么?相當于可以處理20多小時的視頻內容(因為它是原生多模態模型)。

三款全新模型同步發布

  • Scout:17B激活參數(16個專家)。速度極快,原生多模態,智能程度高。達到業界領先的1000萬+token上下文窗口,并且可以在單個GPU上運行!
  • Maverick:17B激活參數(128個專家,100萬token上下文窗口)。在多模態領域表現優于GPT-4o和Gemini 2.0 Flash,在廣泛的基準測試中領先,同時在推理和編碼方面達到與DeepSeek v3相當的結果,但激活參數不到后者的一半。它在性能與成本比上表現出色,實驗性聊天版本在LMArena上得分1417 ELO。同樣可在單臺主機上運行!
  • Behemoth:288B激活參數(16個專家)。這個模型仍在訓練中,是Meta迄今為止最強大的模型,也是全球最智能的LLM之一。Llama 4 Behemoth在多項STEM基準測試中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

目前只有Scout和Maverick已經發布。

核心亮點

  • 原生多模態架構:所有模型使用早期融合技術,將文本、圖像視頻無縫整合到統一的模型主干中。
  • 采用了混合專家(MoE)架構,MoE設計降低了推理成本同時提高了質量。
  • 兩個MoE模型訓練了高達40萬億token,預訓練涵蓋200種語言,性能顯著超越前代產品Llama 3.1 405B。
  • Llama 4 Scout擁有1000萬token的上下文窗口。
  • 從2T參數的教師模型共同蒸餾,強化了推理能力。
  • 減少了政治偏見,拒絕率更加平衡。
  • 訓練采用了新策略,包括用于優化超參數的"MetaP"方法、通過自適應過濾增強的實時強化學習,以及從更大的Behemoth模型共同蒸餾。
  • 根據Meta的計算,Llama 4 Scout可以在單個Nvidia H100 GPU上運行,而Maverick則需要Nvidia H100 DGX系統或同等配置。

性能基準測試

Llama 4 Scout(17B激活參數,1000萬上下文)在編碼、推理和長文本任務上超越了之前的Llama模型,在圖像理解方面也能與更大的模型相媲美。Llama 4 Maverick(17B激活參數,總計400B)在多語言理解、編碼基準和視覺推理方面超過了GPT-4o和Gemini 2.0。兩款模型都受益于與尚未開源的的Llama 4 Behemoth(288B激活參數)的共同蒸餾,在STEM測評中獲得了更高分數。

llama 4, 開源!-AI.x社區

LMArena ELO評分與成本對比:"為了提供用戶體驗,每個token在一次性350毫秒預填充延遲后達到30毫秒解碼延遲,我們估計模型每百萬token的服務成本在0.49之間(3:1混合)"

llama 4, 開源!-AI.x社區

Llama 4 Maverick位居總排名第二 - 成為第四個在Arena上突破1400+的組織!

llama 4, 開源!-AI.x社區

下載地址:

慣例,雖然你可以廣泛、免費使用、修改和分發Llama 4,如果你將模型用于商業用途,且你的產品或服務月活用戶超過7億,則需要在繼續合法使用模型前向Meta申請并獲得單獨的許可。

iRoPE:Llama 4 Scout長上下文支持的技術基礎

iRoPE詳解

目標:在較短上下文上訓練,并泛化到極長序列(256K或更多),無需處處使用顯式位置嵌入。它被稱為"iRoPE",因為它使用交錯層("i")和旋轉位置嵌入(RoPE)。理論上通過巧妙結合局部和全局注意力,使上下文長度無界限。

  1. 具有RoPE的局部可并行分塊注意力在局部注意力塊上使用RoPE。每個塊處理較短的上下文窗口(例如8K token)。在較小序列上訓練更節省內存,仍能捕獲局部依賴關系。這些短上下文注意力層完全可并行化。
  2. 無位置嵌入的全局注意力某些層作為"全局"注意力層,視野超過8K token。在這些層中省略固定位置嵌入以改善長度外推。目標是讓模型處理遠超訓練中明確見過的序列長度。
  3. 最大訓練長度:256K 盡管局部和全局注意力是同一模型的一部分,iRoPE只訓練到256K token。超過這個長度,它依靠模型的外推能力而非匹配精確的訓練模式。
  4. 極長位置注意力權重扁平化在非常大的位置(如數十萬token),注意力權重趨于扁平化。這損害了模型關注相關token的能力。
  5. 推理時溫度縮放為抵消扁平化注意力,iRoPE在全局注意力層中將查詢向量乘以縮放因子:
    ???xq *= 1 + log(floor(i / α) + 1) * β??這為上下文后期出現的token賦予額外權重,幫助模型在極長序列中保持更有意義的注意力信號。它在保持短程性能(低于α)的同時增強長程推理能力。
  • ??i?? = 位置索引
  • ??α?? = 閾值(例如8K)
  • ??β?? = 縮放因子

訓練后處理管道

這個總參數量為2萬億的模型(Behemoth)在訓練后處理方面是個巨大挑戰,他們不得不因應規模重新設計底層RL基礎設施。

llama 4, 開源!-AI.x社區

訓練后管道簡述:輕量級SFT → 在線RL → 輕量級DPO。過度使用SFT/DPO會過度約束模型并限制在線RL期間的探索能力,因此保持輕量級處理。

首先應用**輕量級監督微調(SFT)**,在篩選的數據子集上進行。他們移除了一半以上的"簡單"提示(由Llama評判識別),以強調更難的問題。提高了模型的基線性能而不過度約束它。

然后切換到**持續在線強化學習(RL)**,配合自適應數據過濾。模型在中高難度提示上生成響應,沒難度的提示被過濾掉。通過訓練和過濾循環,集中精力于具挑戰性的例子,增強數學、編碼和推理能力。

最后進行**直接偏好優化(DPO)**,管理細粒度質量問題。采用更輕量級的DPO階段,避免降低復雜任務的性能。這套流程確保了模型能平衡處理多模態輸入,保持創造力,同時可靠處理高難度提示。

Llama 4 Behemoth的共同蒸餾進一步提煉了兩個較小的Llama 4模型,以更少的激活參數傳遞高級推理技能,進一步提升了訓練后結果。

本文轉載自??NLP前沿??,作者:NLP前沿

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线色网| 亚州精品天堂中文字幕 | www国产成人免费观看视频,深夜成人网 | av网站免费 | 91av亚洲| 亚洲男人网 | 久久久久国产一区二区三区四区 | av在线免费播放 | 国产亚洲欧美在线 | 黄色国产视频 | 国产成人免费视频网站高清观看视频 | 色888www视频在线观看 | 国产一区2区 | 成人av影院 | 欧美久久久久久久久 | 一级免费看 | 精品福利一区 | 国精产品一区一区三区免费完 | 色资源在线视频 | 四虎免费视频 | 久久亚洲国产 | 乱码av午夜噜噜噜噜动漫 | 欧美精品影院 | 日韩欧美三区 | 国产精品久久久久无码av | 中文字幕亚洲精品 | 成人h动漫精品一区二区器材 | 中文字幕人成乱码在线观看 | 日韩精品区 | 99免费看 | 日韩综合在线播放 | 欧美精品在线播放 | 啪啪网页| 有码一区| 国产在线网站 | 夫妻午夜影院 | 一级大片免费 | 欧美日韩国产一区二区三区 | 97超碰成人 | 国产情侣啪啪 | 久久97精品 |