騰訊二面真題：DeepSeek對MoE架構(gòu)做了哪些改進？

丁師兄大模型

發(fā)布于 2025-4-18 06:00

瀏覽

0收藏

DeepSeek 對 MoE 架構(gòu)做了哪些改進？跟 Mixtral 的 MoE 有什么不同？這個是我的學(xué)員最近面試某個大模型獨角獸遇到的一道面試題。

1.面試官心理分析

這篇文章，我們就從面試官的角度來分析一下，如果你在面試現(xiàn)場被問到這個題目，應(yīng)該如何作答？

面試官問這個問題，它其實是想考你什么？

第一，Mixtral 大模型采用的 MoE 架構(gòu)長什么樣？
第二，就是 DeepSeek 的 MoE 做了哪些改進，這樣改進的動機是什么？

2.面試題解析

要回答 DeepSeek 的 MoE 改進，我們先來看看，最原始的 MoE 網(wǎng)絡(luò)長什么樣子？以及它是怎么工作的？

這張圖是 Mixtral 8x7B 的 MoE 架構(gòu)：

騰訊二面真題：DeepSeek對MoE架構(gòu)做了哪些改進？-AI.x社區(qū)

其核心思想很直觀，它實際上用了 8 個7B的“專家”模型，當 MoE 與Transformer 相結(jié)合時，會用稀疏 MoE 層替換掉某些前饋層。

MoE 層包含了一個路由網(wǎng)絡(luò)，用于選擇將輸入 token 分派給哪些專家處理，Mixtral 模型為每個詞元選擇 top-K 個專家，那在圖中是選擇兩個。

因為每次只激活部分的專家，所以其解碼速度能做到與 14B 模型相當，也就極大的提高了模型的推理效率。

好，了解了最原始的 MoE 架構(gòu)，我們再來看看，DeepSeek 是怎么改進的？

看這張圖，其實 DeepSeek 的主要改動點，就是把專家分成了兩撥，分別是 Shared Expert 和 Routed Expert。

騰訊二面真題：DeepSeek對MoE架構(gòu)做了哪些改進？-AI.x社區(qū)

通俗來講，就好比學(xué)校的常駐教授和客座教授，常駐教授是一直在的，而客座教授則經(jīng)常會變，不同的教學(xué)主題，有不同的客座教授。

在 DeepSeek 的 MoE 中，Shared Expert 是一直激活的，也就是輸入的 token 會被 Shared Expert 計算，Routed Expert 和普通的 MoE 一樣，要先計算相似度，也就是專家的得分，再選擇 top-k 進行推理。

但是我們分析 DeepSeek 的源碼可以發(fā)現(xiàn)，代碼實際在計算 top-k 時，會先將 N 個 Expert 進行分組 n_groups，將每個組中 top-2 個專家的相似度得分加起來，算出得分最高的那些 top_k_group 組，然后在這些組里選擇 top-k 個專家。

最后將所有的 Shared Expert 輸出和 Routed Expert 輸出做加權(quán)相加，得到 MoE 層的最終輸出。

這里 Deepseek-v3 和 Deepseek-R1 采用了 256 個 Routed Expert 和 1個 Shared Expert，并在 Router 中選出 8 個來，參數(shù)量是 671B，而實際激活的參數(shù)量只有 37B。

好，現(xiàn)在我們答出了 DeepSeek 對 MoE 架構(gòu)的改進點，面試官可能會繼續(xù)追問：那它為什么要這樣改進呢？這樣改進有什么好處？

實際上這種設(shè)計主要是基于以下兩點考慮：

第一，原始的 MoE 會產(chǎn)生較多的冗余，一個想法就是抽取一個 Shared Expert 出來處理通用知識，其他的 Routed Expert 來處理差異性的知識。

通過隔離 Shared Expert，以減輕 Routed Expert 所需要學(xué)習(xí)的知識量，從而減少路由專家之間的冗余。

第二個考慮是高效計算的層面，MoE 模型在訓(xùn)練的時候，會花費大量的時候來做通訊，因為 expert 會分散到不同的設(shè)備上，從而降低巨大的總參數(shù)量帶來的顯存消耗。

一種解決思路是：在通訊流處在工作狀態(tài)的時候，同時用計算流進行后續(xù)的運算，從而隱藏掉部分通訊時間。

Shared Expert 的計算與 Routed Expert 通訊是不依賴的，因此可以使用通訊隱藏，從而比普通的 MoE 結(jié)構(gòu)計算更高效。

?本文轉(zhuǎn)載自???丁師兄大模型??，作者：丁師兄

標簽

DeepSeek

MoE

架構(gòu)

贊

回復(fù)

舉報

回復(fù)

相關(guān)推薦

多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖

Crystalcxt ? 3463瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 3625瀏覽 ? 0回復(fù)
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 3043瀏覽 ? 0回復(fù)
DeepSeek-VL2開源，VLM邁入MoE時代！

xuxiangda ? 3437瀏覽 ? 0回復(fù)
DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？

輕薄滴假象 ? 2204瀏覽 ? 0回復(fù)
騰訊文檔也能用上DeepSeek R1滿血版了！騰訊已漲超7.5%！實測：絲滑生成哪吒3預(yù)測PPT

51CTO技術(shù)棧 ? 3898瀏覽 ? 0回復(fù)
聊聊DeepSeek大模型對AI Agent的影響

王吉偉自頻道 ? 2340瀏覽 ? 0回復(fù)
高盛：DeepSeek等中國大模型，加速AI對全球GDP貢獻

Aceryt ? 2140瀏覽 ? 0回復(fù)
大語言模型都有哪些特質(zhì)？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

angel ? 2344瀏覽 ? 0回復(fù)
秒開率從 18% 到 64%，我們對小程序模擬器做了什么？

快手技術(shù) ? 2038瀏覽 ? 0回復(fù)
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關(guān)鍵技術(shù)

amei2000go ? 5714瀏覽 ? 0回復(fù)
接入 Deepseek 能讓百度文庫煥發(fā)第二春嗎？

老蛀蟲 ? 1958瀏覽 ? 0回復(fù)
中國第二個DeepSeek，Manus發(fā)布通用AI Agent，震驚國外

Aceryt ? 2445瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 2914瀏覽 ? 0回復(fù)
DeepSeek 模型架構(gòu)的特殊選擇

amei2000go ? 1985瀏覽 ? 0回復(fù)
AI浪潮下，對DeepSeek發(fā)展的哲學(xué)新思考

51CTO內(nèi)容精選 ? 1650瀏覽 ? 0回復(fù)
騰訊Hunyuan-T1來襲：Mamba架構(gòu)重塑語言模型推理能力

Halo咯咯 ? 1793瀏覽 ? 0回復(fù)
DeepSeek對RAG技術(shù)的優(yōu)化與落地影響：技術(shù)深度調(diào)研報告

芝士AI吃魚 ? 1776瀏覽 ? 0回復(fù)
實測AI大模型：騰訊混元T1 vs DeepSeek 哪家強？

云中江樹 ? 1785瀏覽 ? 0回復(fù)

丁師兄大模型

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

騰訊二面真題：DeepSeek對MoE架構(gòu)做了哪些改進？

1.面試官心理分析

2.面試題解析

目錄