全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅為 GPT-4-Turbo 的近百分之一

作者：阿寶哥 2024-05-07 11:42:54

DeepSeek-V2 是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由 236B 個參數組成，其中 21B 個參數用于激活每個標記。與 DeepSeek 67B 相比，DeepSeek-V2 性能更強，同時節省了 42.5% 的訓練成本，減少了 93.3% 的 KV 緩存，最大生成吞吐量提高到 5.76 倍。

想象一下，一個人工智能模型，不僅擁有超越傳統計算的能力，還能以更低的成本實現更高效的性能。這不是科幻，DeepSeek-V2^[1]，全球最強開源 MoE 模型來了。

DeepSeek-V2 是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由 236B 個參數組成，其中 21B 個參數用于激活每個標記。與 DeepSeek 67B 相比，DeepSeek-V2 性能更強，同時節省了 42.5% 的訓練成本，減少了 93.3% 的 KV 緩存，最大生成吞吐量提高到 5.76 倍。

DeepSeek 是一家探索通用人工智能（AGI）本質的公司，并致力于將研究、工程和商業三者融為一體。

DeepSeek-V2 的綜合能力

在目前大模型主流榜單中，DeepSeek-V2 均表現出色：

中文綜合能力（AlignBench）開源模型中最強：與 GPT-4-Turbo，文心 4.0 等閉源模型在評測中處于同一梯隊
英文綜合能力（MT-Bench）處于第一梯隊：英文綜合能力（MT-Bench）與最強的開源模型 LLaMA3-70B 處于同一梯隊，超過最強 MoE 開源模型 Mixtral 8x22B
知識、數學、推理、編程等榜單結果位居前列
支持 128K 上下文窗口

全新的模型結構

當 AI 的潛力被不斷挖掘，我們不禁要問：什么是推動智能進步的關鍵？DeepSeek-V2 給出了答案 —— 創新架構與成本效益的完美結合。

DeepSeek-V2，以 236B 的總參數和 21B 激活，大致達到了 70B~110B Dense 模型的能力，同時顯存消耗僅為同級別模型的 1/5~1/100。在8卡H800機器上，每秒可處理超過 10 萬tokens 的輸入，輸出超過每秒 5 萬 tokens。這不僅是技術上的飛躍，更是成本控制的革命。

在 AI 技術飛速發展的今天，DeepSeek-V2 的出現，不僅代表了技術的突破，更預示著智能應用的普及化。它將 AI 的門檻降低，讓更多企業和個人能夠享受到高效智能服務。

中文能力 VS 價格

在中文能力方面，DeepSeek-V2 在 AlignBench 排名中全球領先，同時提供極具競爭力的 API 價格。

模型和論文雙開源

DeepSeek-V2，不只是一款模型，它是通往更智能世界的鑰匙。它以更低的成本，更高的性能，開啟了 AI 應用的新篇章。DeepSeek-V2 的開源，是對這一信念的最好證明，它將激發更多人的創新精神，共同推動人類智能的未來。

模型權重：https://huggingface.co/deepseek-ai
開源地址：https://github.com/deepseek-ai/DeepSeek-V2

在 AI 不斷進化的今天，你認為 DeepSeek-V2 將如何改變我們的世界？讓我們拭目以待，感興趣的話，可以訪問 chat.deepseek.com 親自體驗 DeepSeek-V2 帶來的技術變革。

參考資料

[1]

DeepSeek-V2: https://www.deepseek.com/zh

責任編輯：武曉燕來源：全棧修仙之路

MoE 模型 GPT-4

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅為 GPT-4-Turbo 的近百分之一

DeepSeek-V2 的綜合能力

全新的模型結構

中文能力 VS 價格

模型和論文雙開源