Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數減一半，一張H100就能跑，還有巨獸2萬億參數模型！

原創(chuàng) 精選

作者：李美涵 2025-04-07 07:00:00

人工智能

Llama 4共有三款模型，Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。全部具備多模態(tài)處理能力，能夠原生支持文本、圖像和視頻等多種輸入形式。

編輯 | 李美涵

出品 | 51CTO技術棧（微信號：blog51cto）

深夜，Meta如期發(fā)布了全新的開源大型模型系列——Llama 4，并未出現任何“跳票”傳聞中的推遲情況！

圖片

此次發(fā)布也標志著Meta與近來崛起的開源新王 DeepSeek 正面硬鋼。Meta官推更是表示：表示：“今天開啟了原生多模態(tài)AI創(chuàng)新的新時代”。

Llama 4共有三款模型，Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。全部具備多模態(tài)處理能力，能夠原生支持文本、圖像和視頻等多種輸入形式。

圖片

Llama 4 系列包含三款定位各異的模型，覆蓋從單機部署到超大規(guī)模推理的不同需求：

Llama 4 Scout：小型高性能模型，約17B的活躍參數，背后由16個專家模型組成，總參數量109B。Scout原生支持多模態(tài)，擁有業(yè)界領先的1000萬Token上下文窗口，相當于可一次處理約15,000頁文檔的內容。如此驚人的上下文長度使其特別擅長長文檔摘要、大型代碼庫分析等任務。值得一提的是，Scout能夠在單張NVIDIA H100 GPU上運行（經INT4量化），部署非常方便，這體現了Meta對模型易用性的重視。
Llama 4 Maverick：中等規(guī)模的旗艦多模態(tài)模型，17B活躍參數由128個專家模型提供支持，總參數規(guī)模達400B。Maverick面向通用對話和推理任務，被Meta稱為“同級別中全球最好的多模態(tài)模型”，在多個基準上超越了OpenAI的GPT-4o和Google的Gemini 2.0等對標模型。與新發(fā)布的 DeepSeek v3.1（45.8B活躍參數）相比，Maverick以不到一半的活躍參數量達到相當的推理與編碼性能。它支持100萬Token上下文（約1,500頁文本），在代碼生成、復雜問答等領域表現優(yōu)異。據Meta介紹，Maverick可以在單臺配備8卡H100的DGX服務器上完成推理。
Llama 4 Behemoth：真正的“巨獸”級模型，擁有288B活躍參數，16個專家模型，總參數量接近2萬億。Behemoth是Meta迄今訓練的最強大模型，被視作新一代模型的“教師”或奠基模型。根據Meta內部測試，Behemoth在許多科學、數學基準上表現超群，性能碾壓同類AI產品。例如，它在MATH-500數學競賽數據集上的得分高達95.0，在復雜問答基準GPQA上也遠超競爭對手。

不過，由于訓練難度極高，Llama 4 Behemoth目前仍在訓練過程中，尚未正式開放下載。而Scout和Maverick兩款模型則已經開放下載，可通過官方提供的Llama.com網站或Hugging Face獲取。

業(yè)界對Llama 4給予了高度評價，英偉達高級研究經理 Jim Fan 指出，“對于開源模型而言，易于部署正變得比一味追求模型規(guī)模更重要”。

圖片

Llama 4 ：Meta 首批MoE架構模型

與前代模型不同，Llama 4 系列在架構上進行了徹底的重新設計。三款模型全部采用了當前炙手可熱的Mixture of Experts（MoE，專家混合）架構，成為Meta首批大規(guī)模MoE模型。MoE的核心思想是將許多子模型（“專家”）集成到一個統一架構中，由一個路由（Router）網絡在每次處理請求時動態(tài)選擇少數幾個相關“專家”參與推理，從而避免每次都動用模型的全部參數。

這種稀疏激活機制帶來了巨大的效率優(yōu)勢。正如Meta在博客中解釋的那樣，Llama 4模型的所有參數雖然都常駐內存，但實際推理時每個token只需激活一小部分參數。例如，擁有400B總參數的Llama 4 Maverick，每次推理僅需調用其中約17B的活躍參數（128個專家中每次只用到少數幾個）據Meta估算，Maverick的推理開銷約為每百萬Token 0.19~0.49美元，而同等能力的封閉模型GPT-4o大約需要4.38美元——前者性價比高出一個數量級。在這樣的優(yōu)化下，Maverick甚至可在單機（8卡）H100服務器上運行完成推理，通過分布式推理則能進一步提升吞吐。

小型的Scout更是能在單卡H100上跑通，極大降低了應用門檻。可以說，MoE架構使Llama 4系列在保障性能的同時，將推理效率推向了新高度。

Meta首個原生多模態(tài)的大模型系列

除了架構上的MoE革新，Llama 4還是Meta首個原生多模態(tài)的大模型系列。與上一代純文本的Llama 3不同，Llama 4 從訓練之初就融合了文本、圖像、視頻三種模態(tài)的數據。

Meta并未簡單地在模型后期“拼接”視覺模塊，而是采用了早期融合（Early Fusion）策略，將圖像像素、視頻幀等信息編碼為特征向量后，與文本Token一同輸入統一的Transformer-MoE架構中聯合訓練。據透露，Llama 4 在預訓練時一次可輸入多達48張圖像或視頻幀與文本混合，使模型學會在多模態(tài)信息之間建立聯系。在實際能力上，Llama 4 可以同時處理多張圖片并理解其中的語義關聯。

例如，對于給定的一組圖片加上文本提示，它能夠輸出語義一致的回答，甚至解釋一張搞笑圖片“有趣在哪兒”，或推理多幅圖表的下一步演變。

圖片

需要指出的是，Llama 4 當前尚未涉及音頻/語音模態(tài)，這可能是未來版本的拓展方向。

綜合來看，原生多模態(tài)+MoE是Llama 4架構的兩大亮點。一方面，MoE大幅提升了模型的推理效率和可擴展性，讓超長上下文和超大參數成為可能；另一方面，原生多模態(tài)訓練賦予模型同時理解圖文視頻的能力，使其在視覺問答、多模態(tài)推理等任務上具有天然優(yōu)勢。正因如此，Meta在官方博客中將Llama 4譽為“全新的原生多模態(tài)AI創(chuàng)新時代的開端”。

超低價API，Meta也要拼性價比了

Meta官方寫道，Llama 4 Maverick 超越了同類模型，為開發(fā)者提供了無與倫比的性能與價值。

從圖上看Llama 4 Maverick提供了比AI界拼多多DeepSeek更有吸引力的價格。

圖片

成本的降低與Llama 4的升級的訓練策略密不可分。

Llama 4是如何煉成的？

在訓練策略上，Meta為Llama 4系列量身定制了一套全新方案，以充分發(fā)掘模型潛力并控制巨大的訓練成本。

首先，Meta在監(jiān)督微調（SFT）數據上進行了大幅“瘦身”。他們剔除了50%以上的簡單提示，只保留相對困難、有挑戰(zhàn)性的指令和問題進行微調。這是因為對于像Behemoth這樣超強的模型而言，過于簡單的樣本已無法提供有效學習價值，反而可能讓模型養(yǎng)成敷衍應付的習慣。據悉，Meta采用了一種“自我批判”式的數據篩選方法：利用模型早期訓練的checkpoint充當“批評家”，自動評估標注數據中哪些樣本太過簡單冗余，并將它們過濾掉。這一過程相當于讓模型“自己批改作業(yè)”，確保留在訓練環(huán)節(jié)中的都是能推動模型進步的高質量數據。

其次，在微調之后的強化學習階段，Meta引入漸進式強化學習循環(huán)來提高模型性能。具體而言，他們逐步提升訓練過程中提示的復雜度和多樣性，模擬從易到難的“課程學習（curriculum learning）”過程。一開始模型接受相對簡單的強化學習任務，隨著能力提高，再逐步增加任務難度，如此循環(huán)往復。這種多階段的訓練避免了一次性給模型過大壓力，又能不斷挑戰(zhàn)模型的上限，讓Llama 4在推理、編碼等復雜任務上獲得顯著提升。

另一個重大創(chuàng)新是Meta自研的MetaP技術。這是一種全新的超參數智能調節(jié)方法，旨在讓不同規(guī)模的模型在訓練時保持行為一致。簡單來說，MetaP可以將小模型上調試出的優(yōu)化超參數（如分層學習率等）推廣應用到大模型上，使得后者無需從零開始反復試錯。

這一突破大幅提高了訓練效率——研究人員只需在較小的模型上嘗試找到理想的配置，然后直接在龐大的Behemoth上采用類似策略即可。據業(yè)內專家評價：“這能省下大量時間和資金——不必在大模型上反復試錯”。在Llama 4 Behemoth的訓練中，MetaP發(fā)揮了關鍵作用：由于Behemoth規(guī)模空前（采用FP8精度，調用多達32,000顆GPU，訓練了超過30萬億個token），通過MetaP的指導，Meta團隊才能在有限的試驗預算內成功完成訓練。不僅如此，MetaP還幫助不同模態(tài)的token在訓練中達到更好的均衡，使多模態(tài)融合更加順暢。

寫在最后

Llama 4的按時發(fā)布和卓越表現，不僅是Meta自身的重要里程碑，也為整個AI行業(yè)的發(fā)展方向提供了啟示。展望未來，我們不禁要問：下一代的GPT-5、DeepSeek R2等重量級模型，是否還會堅持“Reasoning First（推理優(yōu)先）”的技術路線？亦或是在推理能力與模型規(guī)模之間尋求新的平衡？

從當前動向看，“大而通用”與“深度思考”這兩條路線或將逐漸融合。OpenAI方面，盡管GPT-4已經展現出強大的通用能力，但在明確的鏈式推理上仍有提升空間，可以預期GPT-5將進一步強化模型的內在邏輯推理與工具使用能力，以應對越來越復雜的任務需求。而DeepSeek作為開源陣營的異軍突起，其R1模型證明了小模型通過自我進化也能掌握復雜推理，這一理念很可能會延續(xù)到DeepSeek R2，并通過與大模型DeepSeek V3的結合，形成規(guī)模+推理兼?zhèn)涞男路妒健?/p>

就像谷歌CEO今天所感嘆的那樣：AI世界，從不平淡。讓我們拭目以待吧。

想了解更多AIGC的內容，請訪問：

51CTO AI.x社區(qū)

http://www.ekrvqnd.cn/aigc/

責任編輯：武曉燕來源： 51CTO技術棧