成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="iqggo"></button>

<acronym id="iqggo"><s id="iqggo"></s></acronym>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

llama 4，開源！

發布于 2025-4-10 07:06

瀏覽

0收藏

Meta 開源 llama4，原生多模態模型，慣例，支持200多種語言，除了中文。

llama 4，開源！-AI.x社區

有點堆活，主要特色是，可以單張GPU運行近1000w token上下文的模型，所以直接對標gemini了？

llama 4，開源！-AI.x社區

1000萬token上下文窗口意味著什么？相當于可以處理20多小時的視頻內容（因為它是原生多模態模型）。

三款全新模型同步發布

Scout：17B激活參數（16個專家）。速度極快，原生多模態，智能程度高。達到業界領先的1000萬+token上下文窗口，并且可以在單個GPU上運行！
Maverick：17B激活參數（128個專家，100萬token上下文窗口）。在多模態領域表現優于GPT-4o和Gemini 2.0 Flash，在廣泛的基準測試中領先，同時在推理和編碼方面達到與DeepSeek v3相當的結果，但激活參數不到后者的一半。它在性能與成本比上表現出色，實驗性聊天版本在LMArena上得分1417 ELO。同樣可在單臺主機上運行！
Behemoth：288B激活參數（16個專家）。這個模型仍在訓練中，是Meta迄今為止最強大的模型，也是全球最智能的LLM之一。Llama 4 Behemoth在多項STEM基準測試中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

目前只有Scout和Maverick已經發布。

核心亮點

原生多模態架構：所有模型使用早期融合技術，將文本、圖像和視頻無縫整合到統一的模型主干中。
采用了混合專家(MoE)架構，MoE設計降低了推理成本同時提高了質量。
兩個MoE模型訓練了高達40萬億token，預訓練涵蓋200種語言，性能顯著超越前代產品Llama 3.1 405B。
Llama 4 Scout擁有1000萬token的上下文窗口。
從2T參數的教師模型共同蒸餾，強化了推理能力。
減少了政治偏見，拒絕率更加平衡。
訓練采用了新策略，包括用于優化超參數的"MetaP"方法、通過自適應過濾增強的實時強化學習，以及從更大的Behemoth模型共同蒸餾。
根據Meta的計算，Llama 4 Scout可以在單個Nvidia H100 GPU上運行，而Maverick則需要Nvidia H100 DGX系統或同等配置。

性能基準測試

Llama 4 Scout（17B激活參數，1000萬上下文）在編碼、推理和長文本任務上超越了之前的Llama模型，在圖像理解方面也能與更大的模型相媲美。Llama 4 Maverick（17B激活參數，總計400B）在多語言理解、編碼基準和視覺推理方面超過了GPT-4o和Gemini 2.0。兩款模型都受益于與尚未開源的的Llama 4 Behemoth（288B激活參數）的共同蒸餾，在STEM測評中獲得了更高分數。

llama 4，開源！-AI.x社區

LMArena ELO評分與成本對比："為了提供用戶體驗，每個token在一次性350毫秒預填充延遲后達到30毫秒解碼延遲，我們估計模型每百萬token的服務成本在0.49之間（3:1混合）"

llama 4，開源！-AI.x社區

Llama 4 Maverick位居總排名第二 - 成為第四個在Arena上突破1400+的組織！

llama 4，開源！-AI.x社區

下載地址：

??https://www.llama.com/llama-downloads/??
??https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E-Instruct??

慣例，雖然你可以廣泛、免費使用、修改和分發Llama 4，如果你將模型用于商業用途，且你的產品或服務月活用戶超過7億，則需要在繼續合法使用模型前向Meta申請并獲得單獨的許可。

iRoPE：Llama 4 Scout長上下文支持的技術基礎

iRoPE詳解

目標：在較短上下文上訓練，并泛化到極長序列（256K或更多），無需處處使用顯式位置嵌入。它被稱為"iRoPE"，因為它使用交錯層（"i"）和旋轉位置嵌入（RoPE）。理論上通過巧妙結合局部和全局注意力，使上下文長度無界限。

具有RoPE的局部可并行分塊注意力在局部注意力塊上使用RoPE。每個塊處理較短的上下文窗口（例如8K token）。在較小序列上訓練更節省內存，仍能捕獲局部依賴關系。這些短上下文注意力層完全可并行化。
無位置嵌入的全局注意力某些層作為"全局"注意力層，視野超過8K token。在這些層中省略固定位置嵌入以改善長度外推。目標是讓模型處理遠超訓練中明確見過的序列長度。
最大訓練長度：256K 盡管局部和全局注意力是同一模型的一部分，iRoPE只訓練到256K token。超過這個長度，它依靠模型的外推能力而非匹配精確的訓練模式。
極長位置注意力權重扁平化在非常大的位置（如數十萬token），注意力權重趨于扁平化。這損害了模型關注相關token的能力。
推理時溫度縮放為抵消扁平化注意力，iRoPE在全局注意力層中將查詢向量乘以縮放因子：
???xq *= 1 + log(floor(i / α) + 1) * β??這為上下文后期出現的token賦予額外權重，幫助模型在極長序列中保持更有意義的注意力信號。它在保持短程性能（低于α）的同時增強長程推理能力。

??i?? = 位置索引
??α?? = 閾值（例如8K）
??β?? = 縮放因子

訓練后處理管道

這個總參數量為2萬億的模型（Behemoth）在訓練后處理方面是個巨大挑戰，他們不得不因應規模重新設計底層RL基礎設施。

llama 4，開源！-AI.x社區

訓練后管道簡述：輕量級SFT → 在線RL → 輕量級DPO。過度使用SFT/DPO會過度約束模型并限制在線RL期間的探索能力，因此保持輕量級處理。

首先應用**輕量級監督微調(SFT)**，在篩選的數據子集上進行。他們移除了一半以上的"簡單"提示（由Llama評判識別），以強調更難的問題。提高了模型的基線性能而不過度約束它。

然后切換到**持續在線強化學習(RL)**，配合自適應數據過濾。模型在中高難度提示上生成響應，沒難度的提示被過濾掉。通過訓練和過濾循環，集中精力于具挑戰性的例子，增強數學、編碼和推理能力。

最后進行**直接偏好優化(DPO)**，管理細粒度質量問題。采用更輕量級的DPO階段，避免降低復雜任務的性能。這套流程確保了模型能平衡處理多模態輸入，保持創造力，同時可靠處理高難度提示。

從Llama 4 Behemoth的共同蒸餾進一步提煉了兩個較小的Llama 4模型，以更少的激活參數傳遞高級推理技能，進一步提升了訓練后結果。

本文轉載自??NLP前沿??，作者：NLP前沿

標簽

贊

收藏

回復

舉報

回復

相關推薦

Llama 3突然來襲！開源社區再次沸騰：GPT-4級別模型可以自由訪問的時代到來

Crystalcxt ? 3246瀏覽 ? 0回復
Meta 發布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術棧 ? 4388瀏覽 ? 0回復
LLM 評估匯總：真的吊打 LLaMA-3，媲美 GPT-4 嗎？

amei2000go ? 6953瀏覽 ? 0回復
性能超Llama 3，可商用！開源大模型Falcon 2

Aceryt ? 3407瀏覽 ? 0回復
LLama2詳細解讀 | Meta開源之光LLama2是如何追上ChatGPT的？

arnoldzhw ? 3690瀏覽 ? 0回復
Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越

duhorse ? 2320瀏覽 ? 0回復
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

魯班模錘1 ? 2662瀏覽 ? 0回復
阿里史上最大規模開源發布，超GPT-4o 、Llama-3.1！

Aceryt ? 2440瀏覽 ? 0回復
Meta首個開源多模態模型Llama 3.2橫空出世，能力不輸GPT4o-mini；小扎：開源的拐點來了！

51CTO技術棧 ? 3408瀏覽 ? 0回復
Llama-4使用10萬塊GPU訓練、更好開源，扎克伯格親口確認！

Aceryt ? 3644瀏覽 ? 0回復
Meta剛開源llama 3.2多模態，就被打敗了！

NLP前沿1 ? 3020瀏覽 ? 0回復
Meta開源多模態模型——Llama 3.2

Aceryt ? 3022瀏覽 ? 0回復
Llama 4 凌晨震撼發布：Meta開源最強MoE多模態模型，1000萬上下文碾壓行業！

AI博物院 ? 1737瀏覽 ? 0回復
兼初步測試 Llama 4

機器學習與數學 ? 1438瀏覽 ? 0回復
Llama4 剛開源就要被網友玩壞了！

PaperAgent ? 1492瀏覽 ? 0回復
Llama 4效果不好，Meta承認有問題

Aceryt ? 1805瀏覽 ? 0回復
Llama4 模型細節 & 效果實測

NLP工作站 ? 1668瀏覽 ? 0回復
Llama 4三大模型來襲，開源免費還超能打

Halo咯咯 ? 2529瀏覽 ? 0回復
Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器

穿越時空111 ? 2559瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

阿里開源VRAG-RL：定義下一代檢索增強生成 2025-06-16 07:56:18發布
RAG應用要如何吃到大模型長上下文的紅利？-LongRAG 2025-06-04 06:19:46發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： Deepseek-R1，論文番外篇!

下一篇：推理大模型并非一定要推理

社區精華內容

目錄

主站蜘蛛池模板：在线色网| 亚州精品天堂中文字幕 | www国产成人免费观看视频,深夜成人网 | av网站免费 | 91av亚洲| 亚洲男人网 | 久久久久国产一区二区三区四区 | av在线免费播放 | 国产亚洲欧美在线 | 黄色国产视频 | 国产成人免费视频网站高清观看视频 | 色888www视频在线观看 | 国产一区2区 | 成人av影院 | 欧美久久久久久久久 | 一级免费看 | 精品福利一区 | 国精产品一区一区三区免费完 | 色资源在线视频 | 四虎免费视频 | 久久亚洲国产 | 乱码av午夜噜噜噜噜动漫 | 欧美精品影院 | 日韩欧美三区 | 国产精品久久久久无码av | 中文字幕亚洲精品 | 成人h动漫精品一区二区器材 | 中文字幕人成乱码在线观看 | 日韩精品区 | 99免费看 | 日韩综合在线播放 | 欧美精品在线播放 | 啪啪网页| 有码一区| 国产在线网站 | 夫妻午夜影院 | 一级大片免费 | 欧美日韩国产一区二区三区 | 97超碰成人 | 国产情侣啪啪 | 久久97精品 |

<abbr id="mikoo"></abbr>

<acronym id="mikoo"></acronym>