LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意精華

發布于 2025-4-7 00:04

瀏覽

0收藏

開源世界的期待與漣漪

人工智能的浪潮奔涌向前，Meta的Llama系列一直扮演著特殊的角色。回想Llama 2的橫空出世和開源姿態，極大地降低了高性能大模型的門檻，在全球范圍內點燃了研究和應用的熱情，催生了無數創新，其影響力至今仍在激蕩。相較之下，Llama 3的發布雖然帶來了性能提升，但在社區看來，似乎少了些 Llama 2那樣的顛覆性震撼，更像是一次穩健但略顯保守的迭代。

在這樣的背景下，Llama 4的發布承載了社區極高的期待。4月6日大周末的，Llama 4發布了。然而，在看完Meta的官方博文文章后，我總體感覺是“千呼萬喚始出來，猶抱琵琶半遮面”。那么它帶來了什么？社區反響如何？它是否達到了人們的預期？我們深入看下。

Llama 4 ：Meta的宏偉藍圖

Meta 的官方博文描繪了一個名為“Llama 4 牧群”（Llama 4 herd）的宏大計劃，首批推出了三位成員，旨在開啟“原生多模態 AI 創新”的新紀元：

LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意-AI.x社區

Llama 4 Scout (偵察兵):

定位: 高效、針對特定場景優化的模型。
參數: 17B (十億) 激活參數，16 個專家（Experts），總參數 109B。
亮點:

原生多模態: 支持文本、圖像、視頻（幀）輸入。
業界領先的 10M (千萬) Token 上下文窗口: 這是最引人注目的數字之一。
高效推理: 據稱可在單個 NVIDIA H100 GPU 上運行（Int4 量化）。
性能: 在同級別模型中表現優異，超越 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama 4 Maverick (特立獨行者):

定位: 通用、高性能的多模態模型。
參數: 17B 激活參數，128 個專家，總參數 400B。
亮點:

原生多模態: 同樣具備強大的多模態處理能力。
1M (百萬) Token 上下文窗口。
性能: 號稱在同級別中擊敗 GPT-4o 和 Gemini 2.0 Flash，并在編碼和推理方面與 DeepSeek v3.1 競爭。
成本效益: 對比 Llama 3.3 70B，以更低成本提供高質量輸出。

Llama 4 Behemoth (巨獸):

定位: 最強大的“教師模型”，用于知識蒸餾。
參數: 288B 激活參數，16 個專家，總參數接近2T (兩萬億)！
亮點:

頂尖性能: 在 STEM 基準測試（如 MATH-500, GPQA Diamond）上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
多模態能力。

狀態: 預覽階段，尚未發布，仍在訓練中。

核心技術看點

原生多模態 (Native Multimodality):Llama 4 從底層設計就考慮了多模態融合，采用“早期融合”（Early Fusion）策略，將文本和視覺 Token 無縫集成到統一的模型骨干中，支持聯合預訓練。這與之前模型外掛視覺模塊的方式有所不同。
混合專家模型 (MoE - Mixture of Experts):Scout 和 Maverick 都采用了 MoE 架構。這種架構在訓練和推理時只激活總參數的一部分（由“路由器”決定將 Token 發往哪些“專家”），從而在給定計算預算下實現更高的效率和模型質量。Maverick 使用了多達 128 個專家，這是一個相當大的規模。
超長上下文窗口:Scout 的 10M Token 上下文是其宣傳的重點。Meta 提到這得益于一種名為iRoPE（interleaved Rotary Position Embeddings）的架構創新，結合了交錯注意力層和旋轉位置編碼，并輔以推理時注意力溫度縮放（inference time temperature scaling）來增強長度泛化能力。
訓練優化:使用 FP8 精度訓練以提高效率，訓練數據量超過 30 萬億 Token（包含文本、圖像、視頻），是 Llama 3 的兩倍以上。還引入了名為 MetaP 的新技術來優化超參數設置。
知識蒸餾:Scout 和 Maverick 的高性能部分歸功于從 Behemoth 模型進行的知識蒸餾（Codistillation），這使得小型模型能夠繼承大型教師模型的“智慧”。

社區反饋：光環之下的陰影

Meta 的發布引發了社區的熱烈討論，但并非一片贊歌：

10M 上下文窗口的“虛幻”：這是被集中火力攻擊的一點。Meta自己的博文明確寫道：“Llama 4 Scout is both pre-trained and post-trained with a256K context length”。這意味著，雖然模型可以通過iRoPE等技術在推理時嘗試處理更長的上下文（如 Needle-in-a-Haystack 測試所示），但它并沒有在千萬級別的真實長序列上進行過訓練。超過256K Token，輸出質量很可能大幅下降，因為模型缺乏處理如此長距離復雜依賴關系的訓練經驗。這使得 10M 的宣傳數字更像是一個理論上限或特定任務（如信息檢索）的表現，而非通用的長文本理解和生成能力。不少人認為這是一種營銷上的“取巧”。
另外，很多模型宣稱支持超長上下文窗口，并用“大海撈針”實驗來測試，但技術上大家普遍認為“大海撈針”實驗不能充分驗證大模型能夠充分的理解、引用、推理整個上下文中信息。（ https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 ）這篇文章設計了Fiction.LiveBench長上下文基準測試。從12個復雜故事生成測試集，考查模型對角色變化、邏輯預測及信息區分的理解。相比“大海撈針”類的搜索測試，它更注重故事深層理解。
比如：在《神雕俠侶》小說中，在一個場景中“楊過被郭芙砍斷一只手臂”，劇情發展很長后，有一個場景是“楊過單臂懷抱小龍女”。這兩個場景在小說中可能相差很多個章節，那么如果我們問大模型：楊過為什么單臂懷抱小龍女？能夠很好處理長下文的大模型應該能夠根據之前很遠的章節中的”被砍斷一只手臂”的場景推理出來。 Fiction.LiveBench測試顯示，就算當前第一梯隊大模型在短上下文（1k）通過，長上下文（8k）失敗的案例比比皆是【參考下面的表格，可以看到各個大模型在上下文窗口長度增長時，性能在幾句的下降】。所以LLaMA 4宣稱的10M長下文窗口，可能會有“虛幻“。
基準測試的意義：“書呆子的占星術”？Yuchen Jin 的評論雖帶有戲謔（“Benchmarks? they are just astrology for nerds. Vibes only.”），卻也反映了社區對基準測試局限性的普遍認知。Andriy Burkov 也提到，包括 Elo 評分在內的基準可以通過微調來“刷分”，使其看起來接近頂部。實際應用中的表現（“vibe check” 或在用戶自己的問題上測試）可能與基準得分存在偏差，尤其是在幻覺（hallucination）等問題上，新模型可能并未比2023年的模型有質的飛躍。
推理能力的缺失？Martin Bowling 點出了一個潛在的短板：Llama 4的發布似乎并未特別強調或展示其在復雜推理 (reasoning)能力上的突破。Burkov甚至稱其為“非推理模型”（non-reasoning model），認為即使有 30T 訓練數據和 2T 參數，也無法讓它超越那些更小的、但具備更強推理能力的模型。Bowling 覺得沒有在這次發布中加入一個“推理器”（reasoner）很奇怪，認為本可以通過 GRPO 等技術輕松實現。

不盡如人意，但仍是重要一步

綜合來看，Llama 4的發布是一次復雜且充滿矛盾的事件。

亮點不容忽視：

它確實是 Meta 在開源多模態模型領域邁出的重要一步，原生多模態架構值得肯定。
MoE 架構的應用顯示了Meta在模型效率和規模化方面的持續探索。
Scout和 Maverick在各自參數級別上展現了強大的競爭力，為開發者提供了新的、高性能的開源選擇。
堅持開源本身就是對社區的巨大貢獻。

失望與疑慮也真實存在：

10M上下文的宣傳與實際訓練深度之間的差距，可能影響社區信任。
高達2T參數的 Behemoth 未能在綜合能力上展現絕對統治力，并處于“預覽”狀態，讓“巨獸”的震撼打了折扣。
在社區日益關注的復雜推理能力上，Llama 4似乎沒有帶來驚喜。
對基準測試的依賴和潛在的“刷分”可能，使得對其真實能力的評估更加困難。

總體來說，Llama 4并沒有完全滿足社區對“革命性”突破的期待，它更像是一次雄心勃勃的技術探索，但部分成果的成熟度和實用性仍有待檢驗。Meta可能確實在技術上取得了進展，但在溝通和預期管理上，或許有些操之過急或過于樂觀。

“猶抱琵琶半遮面”的 Behemoth 何時能完全展露真容？Meta是否會推出專注于推理的后續模型？超長上下文的承諾能否在實際應用中兌現？這些都是 Llama 4留給我們的懸念。

本文轉載自???后向傳播???，作者：張發恩

標簽

LLaMA 4

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意精華

開源世界的期待與漣漪

Llama 4 ：Meta的宏偉藍圖

核心技術看點

社區反饋：光環之下的陰影

不盡如人意，但仍是重要一步

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意 精華

開源世界的期待與漣漪

Llama 4 ：Meta的宏偉藍圖

核心技術看點

社區反饋：光環之下的陰影

不盡如人意，但仍是重要一步

目錄

LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意精華