超越Claude 3.5緊追o1！DeepSeek-V3-Base開源，編程能力暴增近31％

作者：機器之心 2024-12-26 17:13:17

人工智能新聞

DeepSeek-V3-Base 采用了 685B 參數的 MoE 架構，包含 256 個專家，使用了 sigmoid 路由方式，每次選取前 8 個專家（topk=8）。

在 2024 年底，探索通用人工智能（AGI）本質的 DeepSeek AI 公司開源了最新的混合專家（MoE）語言模型 DeepSeek-V3-Base。不過，目前沒有放出詳細的模型卡。

HuggingFace 下載地址：https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

具體來講，DeepSeek-V3-Base 采用了 685B 參數的 MoE 架構，包含 256 個專家，使用了 sigmoid 路由方式，每次選取前 8 個專家（topk=8）。

圖源：X@arankomatsuzaki

該模型利用了大量專家，但對于任何給定的輸入，只有一小部分專家是活躍的，模型具有很高的稀疏性。

圖源：X@Rohan Paul

從一些網友的反饋來看，API 顯示已經是 DeepSeek-V3 模型。

圖源：X@ruben_kostard

同樣地，聊天（chat）界面也變成了 DeepSeek-v3。

圖源：X@Micadep

那么，DeepSeek-V3-Base 性能怎么樣呢？Aider 多語言編程測評結果給了我們答案。

先來了解一下 Aider 多語言基準，它要求大語言模型（LLM）編輯源文件來完成 225 道出自 Exercism 的編程題，覆蓋了 C++、Go、Java、JavaScript、Python 和 Rust 等諸多編程語言。這 225 道精心挑選的最難的編程題給 LLM 帶來了很大的編程能力挑戰。

該基準衡量了 LLM 在流行編程語言中的編碼能力，以及是否有能力編寫可以集成到現有代碼的全新代碼。

從下表各模型比較結果來看，DeepSeek-V3-Base 僅次于 OpenAI o1-2024-12-17 (high)，一舉超越了 claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp 等競品模型以及前代 DeepSeek Chat V2.5。

其中與 V2.5（17.8％）相比，V3 編程性能暴增到了 48.4％，整整提升了近 31％。