DeepSeek開源DeepEP，公開大模型訓練效率暴漲秘訣！

Aceryt

發布于 2025-2-26 12:18

瀏覽

0收藏

DeepSeek開啟了本周連續5天技術分享的第2天，開源了專為混合專家模型（MoE）訓練和推理設計的開源EP通信庫——DeepEP。

值得一提的是，DeepSeek昨天開源的FlashMLA已經超過7000顆星，成為github霸榜項目。今天這個已經破1000顆星啦。

DeepSeek開源DeepEP，公開大模型訓練效率暴漲秘訣！-AI.x社區

開源地址：https://github.com/deepseek-ai/DeepEP

通常在MoE模型中，不同的GPU節點往往需要分工合作處理數據，而All-to-All通信是一種常見的模式，用來實現GPU之間數據的互相交換。

DeepEP通過高效且優化的All-to-All通信機制，支持節點內部和節點之間的通信，分別利用NVLink和RDMA實現。

例如，假設你有4個GPU，每個GPU專注于處理部分“專家模塊”，通過All-to-All通信，GPU1需要將部分數據發給GPU2，同時也從GPU3接收數據。DeepEP優化了這種通信方式，讓數據交換更快更高效。

同時，DeepEP還支持高吞吐量和低延遲內核。高吞吐量內核適用于訓練中的數據批量處理階段，比如預填充大批量數據時，能夠顯著提升訓練速度。而低延遲內核則針對推理解碼階段，低延遲的計算能夠讓生成結果更快。

例如，推理時，如果GPT模型正在完成一句話生成，低延遲內核會減少每個單詞生成的等待時間。

DeepSeek開源DeepEP，公開大模型訓練效率暴漲秘訣！-AI.x社區

DeepEP原生支持FP8分發。FP8是一種更低精度的計算格式，相比于傳統的FP16或FP32，更節省顯存和計算資源，同時還能保持一定的精度。例如，在使用超大MoE模型生成文本時，使用FP8可以顯著減少計算成本，DeepEP天生支持這種低精度操作。

此外，DeepEP還實現了計算與通信的重疊。在深度學習中，通信（傳輸數據）和計算往往是分階段進行的，而DeepEP可以讓這兩者同時進行，進一步提升整體效率。例如，在訓練過程中，一個GPU可以在等待通信完成的同時，繼續處理其他計算任務，從而避免浪費時間。

網友表示，DeepSeek 對混合專家模型的優化程度令人矚目，這類模型因其規模和復雜性而極難處理。DeepEP利用 NVLink 和 RDMA 等前沿硬件，如此精準地應對挑戰并支持 FP8 數據格式，實在是太厲害了。

DeepSeek開源DeepEP，公開大模型訓練效率暴漲秘訣！-AI.x社區

更多 CUDA 內核！又是出色的成果！

DeepSeek開源DeepEP，公開大模型訓練效率暴漲秘訣！-AI.x社區

DeepEP來了，它將給 AI 模型訓練帶來革命性變化！

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/mjtIeu43XjE05GsAayo5pg??

標簽

模型

訓練

贊

回復

舉報

回復

相關推薦

阿里 C4：通信驅動加速大規模并行訓練效率

amei2000go ? 7568瀏覽 ? 0回復
【LLM】提升大規模并行訓練效率的方法

sbf_2000 ? 4203瀏覽 ? 0回復
ChatGPT等模型瘋狂訓練，最快2026年消耗盡公開文本數據

Aceryt ? 4383瀏覽 ? 0回復
OLMoE: 開源的MoE語言模型(預訓練&效果)

sbf_2000 ? 2849瀏覽 ? 0回復
最大限度提高人工智能訓練效率：選擇合適的模型

51CTO內容精選 ? 2714瀏覽 ? 0回復
DeepSeek-V3 模型深度剖析：架構創新、訓練優化與性能卓越

AI論文解讀 ? 1.1w瀏覽 ? 0回復
中科大揭秘微調大模型的秘訣：如何精準選擇數據提升AI性能

AI論文解讀 ? 3145瀏覽 ? 0回復
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風云2002_1 ? 1.2w瀏覽 ? 0回復
DeepSeek一鍵接入這些工具，效率狂飆！

云原生AI百寶箱 ? 4522瀏覽 ? 0回復
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創新！FP8狂飆，帶飛GPU

duhorse ? 2876瀏覽 ? 0回復
GPU效率暴漲！DeepSeek開源DeepGEMM，僅300行代碼

Aceryt ? 2344瀏覽 ? 0回復
白嫖資源訓練 DeepSeek R1 推理模型

AIGC前沿技術追蹤 ? 3904瀏覽 ? 0回復
DeepSeek開源優化并行策略，提升訓練和通信效率

Aceryt ? 2471瀏覽 ? 0回復
DeepSeek成本公開：還值得自建算力嗎？

云原生AI百寶箱 ? 2103瀏覽 ? 0回復
新基準TEXTGAMES能否揭開大模型的短板？

sbf_2000 ? 1819瀏覽 ? 0回復
混元T1正式版推出，公開對壘DeepSeek：速度快幻覺少!

51CTO技術棧 ? 1523瀏覽 ? 0回復
DeepSeek與Qwen組團開源了模型，沖!

PaperAgent ? 1651瀏覽 ? 0回復
媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開

Aceryt ? 1595瀏覽 ? 0回復
Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析

大模型自然語言處理 ? 1701瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

DeepSeek開源DeepEP，公開大模型訓練效率暴漲秘訣！

目錄