Meta放大招!Llama 4三大模型來襲,開源免費還超能打 原創 精華
最近,AI領域又掀起了一陣波瀾!Meta AI一次性推出了三款全新的Llama 4模型,直接把開源AI的“戰火”燒到了新的高度。在這個大家都忙著堆砌“閉源大模型”的時代,Meta卻選擇了另一條路:把強大的AI能力免費開源,讓每個人都能用上。今天,咱們就來好好盤一盤這三款Llama 4模型,看看它們到底有多厲害!
Llama 4家族:各有千秋的“三兄弟”
Meta這次推出的Llama 4家族,包括Scout、Maverick和Behemoth三款模型。這三款模型各有特點,從輕量級部署到企業級推理,幾乎涵蓋了所有應用場景。最關鍵的是,Scout和Maverick已經對公眾開放,大家可以免費使用!
Llama 4 Scout:小而精,快且強
Scout是Llama 4家族里最“小巧”的一個,但它可一點都不簡單。這是一款專為輕量級應用設計的模型,特別適合那些沒有強大GPU集群的開發者和研究人員。
- 架構:Scout采用了“專家混合”(MoE)架構,總共有16個專家模塊,每次只激活其中的2個,這樣在推理時就能保持高效。雖然它的總參數量有1090億,但實際激活的參數只有170億,而且它支持長達1000萬token的上下文窗口,這在所有開源大模型里都是最長的。
- 效率:Scout的運行效率非常高,只需要一塊H100 GPU,通過Int4量化就能輕松運行。這意味著,即使硬件條件有限,也能享受到高性能的AI服務。
- 性能:別看Scout“身材小”,它的性能可一點都不弱。在基準測試中,Scout輕松超過了Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1等同級別模型。
- 訓練:Scout的訓練過程也非常“豪華”。它在200種語言上進行了預訓練,其中100種語言的數據量都超過10億token。而且,它還支持多達8張圖片的輸入,能夠處理復雜的圖像和視頻數據。
- 應用場景:Scout的長處在于處理長文本和圖像推理任務。比如,它可以用來開發長記憶聊天機器人、代碼總結工具、教育問答機器人,甚至還能優化移動設備或嵌入式系統上的AI助手。
Llama 4 Maverick:旗艦級的全能選手
如果Scout是家族里的“小鋼炮”,那么Maverick就是“全能旗艦”。Maverick在推理能力、編碼能力和多模態應用上都表現出色,是Llama 4家族的“門面擔當”。
- 架構:Maverick同樣采用了MoE架構,不過它有128個路由專家模塊和一個共享專家模塊。在推理時,它只激活170億參數,總參數量達到了4000億。而且,它支持文本和圖像的早期融合輸入,能夠同時處理多達8張圖片。
- 效率:Maverick的運行效率也非常高,可以在單個H100 DGX主機上運行,也可以擴展到多個GPU上。這意味著,它既可以滿足單機用戶的需求,也能適應大規模企業級應用。
- 性能:Maverick在多個基準測試中都取得了優異的成績。在LMSYS聊天機器人競技場中,它的ELO得分達到了1417,超過了GPT-4o和Gemini 2.0 Flash,與DeepSeek v3.1在推理、編碼和多語言能力上不相上下。
- 訓練:Maverick的訓練過程更是“黑科技”滿滿。它采用了MetaP超參數縮放、FP8精度訓練等先進技術,并且使用了30萬億token的數據集進行訓練。這些技術讓Maverick在圖像理解、多語言推理和成本效率上都超越了Llama 3.3 700億模型。
- 應用場景:Maverick的強大能力讓它在多個領域都能大展身手。比如,它可以用于AI輔助編程、企業級文檔理解,甚至還能開發教育輔導系統。
Llama 4 Behemoth:幕后“導師”
雖然Behemoth是Llama 4家族里最大的一個,但它并不對外開放。不過,它在訓練Scout和Maverick的過程中發揮了關鍵作用。
- 架構:Behemoth是Meta迄今為止最大的模型,采用了MoE架構,有16個專家模塊,在推理時激活2880億參數,總參數量接近2萬億。它天生就是多模態的,在推理、數學和視覺語言任務上表現出色。
- 性能:Behemoth在多個STEM基準測試中都超過了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,比如MATH-500、GPQA Diamond和BIG-bench等。
- 角色:Behemoth的主要作用是作為“導師”,通過共蒸餾(co-distillation)的方式指導Scout和Maverick的訓練。它引入了一種新的損失函數,動態平衡軟監督和硬監督目標,讓Scout和Maverick能夠更好地學習。
- 訓練:Behemoth的訓練過程更是“硬核”。它采用了FP8精度訓練、優化的MoE并行化技術,讓訓練速度比Llama 3快了10倍。此外,它還引入了新的強化學習策略,包括硬提示采樣、多能力批量構建和多種系統指令采樣。
如何使用Llama 4模型?
好消息是,現在你已經可以通過多種方式輕松使用Llama 4模型了,無論你是想做研究、開發應用,還是單純想試試它的能力。
- llama.meta.com:這是Meta官方的Llama模型中心,提供了模型卡片、論文、技術文檔,以及Scout和Maverick的開源權重。開發者可以下載這些模型,然后在本地或云端運行。
- Hugging Face:Hugging Face也提供了Llama 4的即用版本。你可以直接在瀏覽器中通過推理端點測試這些模型,或者通過Transformers庫進行部署。此外,它還支持與Gradio和Streamlit等常見工具的集成。
- Meta應用:Llama 4模型還為Meta旗下的WhatsApp、Instagram、Messenger和Facebook等應用提供了AI助手功能。這意味著,你可以在這些日常應用中直接體驗Llama 4模型的強大能力。
- 網頁界面:你也可以直接通過網頁界面訪問最新的Llama 4模型,測試它的能力。
Llama 4模型實戰測試
說了這么多,咱們也來實際測試一下Llama 4模型的能力。雖然Meta目前沒有明確說明在應用或網頁界面中使用的是哪一款模型(Scout、Maverick還是Behemoth),但我們可以嘗試一些常見的任務,看看它的表現如何。
任務1:創意規劃
提示:“為一個名為‘Soles’的鞋類品牌創建一個社交媒體內容策略,幫助他們吸引Z世代的用戶?!?/p>
輸出:Llama 4模型很快生成了一份詳細但簡潔的社交媒體策略。不過,目前在網頁界面中還不能上傳文件或圖片,而且它也不支持網絡搜索或畫布功能。
觀察:Llama 4模型的響應速度非常快,能夠迅速生成一份有針對性的策略。
任務2:代碼生成
提示:“編寫一個Python程序,展示一個球在一個旋轉的五邊形內彈跳,遵循物理定律,并且每次彈跳后速度都會增加?!?/p>
輸出:生成的代碼存在一些錯誤。
觀察:雖然模型能夠快速理解需求,但在代碼生成的準確性上還有待提高。
任務3:圖像生成
提示:“生成一張圖片,內容是一個人在筆記本電腦上工作,電腦屏幕上打開的文檔標題為‘Llama 4’,拍攝角度要能看到屏幕,桌子上還有一杯咖啡和一盆植物?!?/p>
輸出:模型生成了4張圖片,其中一張效果最好。
觀察:Llama 4模型不僅生成了圖片,還提供了“編輯”和“動畫”功能。你可以對圖片進行局部修改,甚至還能生成GIF動圖。
Llama 4模型的訓練與優化
Meta在訓練Llama 4模型時采用了結構化的兩步過程:預訓練和后訓練。通過引入一系列新技術,讓這些模型在性能、可擴展性和效率上都得到了顯著提升。
預訓練階段
預訓練是模型知識和能力的基礎。Meta在這一階段引入了多項創新:
- 多模態數據:Llama 4模型在超過30萬億token的多樣化文本、圖像和視頻數據集上進行了訓練。它們天生就是多模態的,能夠同時處理語言和視覺信息。
- 專家混合(MoE):在每次推理時,模型只激活一部分參數。這種選擇性激活讓像Maverick(4000億參數)和Behemoth(近2萬億參數)這樣的超大模型能夠更高效地運行。
- 早期融合架構:文本和視覺輸入通過早期融合進行聯合訓練,將兩者整合到同一個模型框架中。
- MetaP超參數調整:這種新技術讓Meta能夠為每一層設置學習率和初始化規模,這些參數可以在不同模型大小和訓練配置之間很好地遷移。
- FP8精度:所有模型都采用FP8精度進行訓練,這在不犧牲模型質量的情況下提高了計算效率。
- iRoPE架構:這是一種新的方法,使用交錯注意力層,不使用位置嵌入,并在推理時進行溫度縮放,幫助Scout更好地處理長達1000萬token的極長輸入。
后訓練階段
在基礎模型訓練完成后,Meta團隊通過精心設計的步驟對模型進行了微調:
- 輕量級監督微調(SFT):Meta使用Llama模型作為“裁判”,篩選出更復雜的提示,只用這些更難的樣例來微調模型在復雜推理任務上的表現。
- 在線強化學習(RL):通過硬提示、自適應過濾和課程設計,持續進行強化學習訓練,保持模型在推理、編碼和對話能力上的優勢。
- 直接偏好優化(DPO):在強化學習之后,使用輕量級DPO微調特定邊緣情況和響應質量,平衡模型的有用性和安全性。
- Behemoth共蒸餾:Behemoth作為“導師”,為Scout和Maverick生成訓練輸出。Meta還引入了一種新的損失函數,動態平衡軟監督和硬監督目標。
通過這些步驟,Llama 4模型不僅在規模上龐大,而且在優化、安全性以及廣泛任務上的能力上都得到了顯著提升。
Llama 4模型的基準測試表現
Meta為Llama 4家族的三款模型都提供了詳細的基準測試結果。這些結果不僅展示了每款模型根據其設計目標和參數規模的表現,還在一些新引入的、極具挑戰性和全面性的基準測試中超過了領先的模型。
Llama 4 Scout
作為家族中最小的成員,Scout在注重效率的評估中表現得非常出色:
- ARC(AI2推理挑戰):在常識推理任務中,Scout在同規模模型中表現優異。
- MMLU Lite:在歷史、基礎科學和邏輯推理等任務上表現穩定。
- 推理速度:即使在單個H100 GPU上,Scout也能以極低的延遲快速響應問答和聊天機器人任務。
- 代碼生成:Scout在簡單到中級編程任務上表現出色,非常適合教育編程助手。
- 針尖麥芒(NiH):在長達1000萬token的文本或20小時視頻的長文本任務中,Scout能夠以近乎完美的精度檢索信息,展現出無與倫比的長期記憶能力。
Llama 4 Maverick
Maverick是為了性能而生,它在各個方面的表現都非常出色:
- MMLU(多任務語言理解):在知識密集型任務中,Maverick超過了GPT-4o、Gemini 1.5 Flash和Claude 3 Sonnet。
- HumanEval(代碼生成):在生成功能性代碼和解決算法問題方面,Maverick與GPT-4不相上下,甚至在某些情況下表現更好。
- DROP(段落離散推理):Maverick展現了強大的上下文理解和數值推理能力。
- VQAv2(視覺問答):在基于圖像的問答任務中,Maverick表現出色,展現了其卓越的視覺語言能力。
- 針尖麥芒(NiH):在長達100萬token的長文檔中,Maverick能夠以近乎完美的精度檢索隱藏信息,即使在極端上下文深度下也只有少數遺漏。
Llama 4 Behemoth
雖然Behemoth并不對公眾開放,但它作為Meta最強大的評估基準,為其他模型的蒸餾和指導發揮了關鍵作用:
- 內部STEM基準測試:在科學、數學和推理方面,Behemoth在Meta內部測試中位居榜首。
- SuperGLUE和BIG-bench:Behemoth在這些測試中也取得了內部最高分,反映了其尖端的語言建模能力。
- 視覺語言整合:在需要結合文本和圖像理解的任務中,Behemoth的表現往往超過了所有已知的公開模型。
這些基準測試結果清楚地展示了每款模型在其角色中的優勢:Scout以速度和效率著稱,Maverick在性能和通用任務上表現出色,而Behemoth則作為研究級別的“導師”模型,用于蒸餾和評估。
如何選擇合適的Llama 4模型?
雖然Llama 4家族的三款模型各有特色,但它們也各有適用場景。下面是一個簡單的對比總結,幫助你找到最適合你任務的Llama 4模型:
模型名稱 | 總參數量 | 激活參數量 | 專家模塊數量 | 上下文長度 | 運行環境 | 公開訪問 | 適用場景 |
Scout | 1090億 | 170億 | 16 | 1000萬token | 單個H100 GPU | ? | 輕量級AI任務、長記憶應用 |
Maverick | 4000億 | 170億 | 128 | 未列出 | 單個或多個GPU | ? | 研究、編碼、企業級應用 |
Behemoth | 約2萬億 | 2880億 | 16 | 未列出 | 內部基礎設施 | ? | 內部蒸餾 + 基準測試 |
結語
Llama 4的發布,不僅僅是Meta的一次技術突破,更是開源AI領域的一次重大變革。這些模型不僅強大、高效,而且完全開源免費。開發者們再也不需要巨額預算就能用上頂尖的AI技術。從小微企業到大型企業,從課堂到研究實驗室,Llama 4讓尖端AI技術觸手可及。在這個AI飛速發展的時代,開源不再是配角,而是未來的發展方向。而Meta,正是這個方向的有力推動者!
希望這篇文章能讓你對Meta的Llama 4模型有更深入的了解!如果你對這些模型感興趣,不妨親自去試試它們的能力,說不定能給你的項目帶來新的靈感呢!
本文轉載自公眾號Halo咯咯 作者:基咯咯
