中國MoE一夜爆火！大模型新王暴打GPT-4o，訓練成本僅600萬美元

作者：新智元 2024-12-27 10:27:58

600萬美金訓出擊敗GPT-4o大模型，竟被中國團隊實現了！今天，DeepSeek-V3在全網掀起巨大風暴，僅憑671B參數在數學代碼性能上，堪比國外大模型Claude 3.5 Sonnet。

一夜之間，來自中國的大模型刷屏全網。

圖片

DeepSeek-V3，一個擁有671B參數的MoE模型，吞吐量每秒高達60 token，比上一代V2直接飆升3倍。

在多項基準測試中，V3性能直接與Claude 3.5 Sonnet、GPT-4o相匹敵。

在數學代碼方面，DeepSeek-V3完全碾壓GPT-4o。尤其是中文能力，全面領先國外的領先大模型。

圖片

就看這閃電般的推理速度，就知道模型有多強了。

圖片

值得一提的是，DeepSeek-V3在14.8T高質量token上完成了訓練，模型和論文100%開源。

論文地址：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

新模型驚艷出世，徹底掀翻了整個AI圈。業界多位AI大佬，紛紛對此表示震驚，將重點轉向其訓練成本GPU之上。

論文中，明確提出了DeepSeek-V3僅使用2048塊GPU訓練了2個月，并且只花費了557.6萬美金。

Karpathy驚嘆道，「作為參考，要達到這種級別的能力，通常需要約1.6萬個GPU的計算集群。不僅如此，當前業界正在部署的集群規模甚至已經達到了10萬個GPU。

比如，Llama 3 405B消耗了3080萬GPU小時，而看起來更強大的DeepSeek-V3卻只用了280萬GPU小時（計算量減少了約11倍）。

到目前為止，模型在實際應用中的表現相當出色——不僅在LLM競技場名列前茅，而且從Karpathy本人的快速測試來看，結果也都很不錯。

這說明，即便是在資源受限情況下，模型也能展現出令人印象深刻的研究和工程能力。

這是否意味著前沿LLM不需要大型GPU集群？不是的，但這表明，你必須確保不浪費已有的資源，這個案例很好地證明了在數據和算法方面還有很大的優化空間」。

另外，賈揚清針對推理提出了幾點自己的思考：

首先最重要的是，我們正式進入了分布式推理時代。一臺單GPU機器（80×8=640G）的顯存已經無法容納所有參數。雖然更新大顯存機器確實可以裝下模型，但不論如何，都需要分布式推理來保證性能和未來擴展。
即使在單個模型中，也需要關注MoE的負載均衡，因為每次推理只有大約5%的參數激活。
論文中特別提到引入「redundantexpert」概念，正是為了解決這個問題。這已經不再是「一個模型多個副本」的問題、而是「每個模型子模塊都有多個副本」，然后獨立擴縮容。
輸入token很容易實現盈利。根據個人專業判斷，需要大量優化才能使輸出token盈利或實現收支平衡。但如果我們相信「軟件摩爾定律」，這就不是問題：每18個月單token成本減半。
需要進行分塊（tile）或塊（block）級別的量化。
等硬件支持FP4以后，肯定還有不少可以玩的花樣冷知識：FP4乘法實際上就是個16×16的table lookup等等……