成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="qiceg"><acronym id="qiceg"></acronym></center>

<rt id="qiceg"></rt>

<cite id="qiceg"><samp id="qiceg"></samp></cite>

<li id="qiceg"><input id="qiceg"></input></li>

<bdo id="qiceg"><tbody id="qiceg"></tbody></bdo>

<strike id="qiceg"></strike>

<bdo id="qiceg"><source id="qiceg"></source></bdo>

<button id="qiceg"></button>

<bdo id="qiceg"><source id="qiceg"></source></bdo>

<button id="qiceg"></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

DeepSeek如何用MTP逆天改命？

丁師兄大模型

發布于 2025-4-30 06:23

瀏覽

0收藏

DeepSeek-V3 的 Multi-Token Prediction 到底在做什么？這個問題在大模型面試中經常被問到，屬于 DeepSeek 的高頻面試題。

所以這篇文章我們就來看看，如果你在面試現場被問到這個問題，應該如何作答？

1.面試官心理分析

首先老規矩，我們還是來分析一下面試官的心理，面試官問這個問題，它其實主要是想考察你 3 個方面：

第一，為什么要做 MTP？你是否知道這個算法背后的動機？
第二，之前的工作 MTP 是怎么做的？DeepSeek 肯定不是這個方法的首創，那之前的研究，前因后果你是否清楚呢？
第三，DeepSeek 的 MTP 是怎么做的，它的設計相比之前的，有什么不同之處？

好，了解了面試官的心理之后，接下來我們就沿著面試官的心理預期，來回答一下這道題目！

2.面試題解析

首先第一個問題：為什么要做 MTP？

我們都知道，當前主流的大模型都是 decoder-only 的架構，每生成一個 token，都要頻繁的跟訪存交互，加載 KV-Cache，再完成前向計算。

那對于這樣的訪存密集型任務，通常會因為訪存效率而形成推理的瓶頸，針對這種 token-by-token 生成效率的瓶頸，業界有很多方法來優化，比如減少存儲空間，減少訪存次數等等。

那 MTP 也是優化訓練和推理效率的方法之一，它的核心動機是：通過解碼階段的優化，將 next 1-token 的生成，轉變成 multi-token 的生成，以提升訓練和推理的性能。

對于訓練階段，一次生成多個后續 token，可以一次學習多個位置的 label，這樣可以增加樣本的利用效率，提高訓練速度；而在推理階段，通過一次生成多個 token，可以實現成倍的解碼加速，來提升推理性能。

好，到這里我們就回答了第一個問題：為什么要用 MTP？接著我們再來看看，DeepSeek 之前的 MTP 都是如何做的？業界經過了哪些探索？

其實最早做 MTP 方法的是 Google 在 18 年發表的這篇論文《Blockwise Parallel Decoding for Deep Autoregressive Models》。

其思想很簡單，我們看這張圖：

DeepSeek如何用MTP逆天改命？-AI.x社區

可以看到，logits 上接了多個輸出頭，這樣訓練的時候可以同時預測出多個未來的 token，也就是分別預測下個 token，再下個 token，再再下個 token，以此類推。

好，理解了網絡細節，我們再看并行解碼過程就很好理解了，整個推理過程看這張圖：

DeepSeek如何用MTP逆天改命？-AI.x社區

可以看到，解碼過程主要分成三步：

階段 1：predict，利用 k 個 Head 一次生成 k 個 token，每個 Head 生成一個 token。

階段 2：verify，將原始的序列和生成的 k 個 token 拼接，組成 sequence_input 和 label 的 Pair 對。

Pair<sequence_input, label>

大家看圖中的 verify 階段，黑框里是 sequence_input，箭頭指向的是要驗證的 label。

我們將組裝的 k 個 Pair 對組成一個 batch，一次性發給 Head1 做校驗，檢查 Head1 生成的 token 是否跟 label 一致。

然后是階段 3：accept，選擇 Head1 預估結果與 label 一致的最長的 k 個 token，作為可接受的結果。

最優情況下，所有輔助 Head 預測結果跟 Head1 完全一樣，也就是相當于一個 step 正確解碼出了多個 token，這可以極大的提升解碼效率。

實際上在 24 年，meta 也發表過一篇大模型 MTP 的工作，這是當時的論文，其結構跟 Google 那篇差別不大，這里我們就不再單獨贅述。

感興趣的同學可以去看看這篇論文《Better & Faster Large Language Models via Multi-token Prediction》。

好，了解了 MTP 在業界的發展，我們再來看看，DeepSeek 是怎么做 MTP 的？

這里直接說改進，DeepSeek 的 MTP 設計，看這張圖：

DeepSeek如何用MTP逆天改命？-AI.x社區

實際上它在論文實現上保留了序列推理的 causal chain，也就是存在從一個 head 連接到后繼 head 的箭頭。其他的思路跟 google 那篇論文差不多。

另外在訓練的時候，同樣采用的是 teacher forcing 的思想，也就是 input 會輸入真實的 token，而在實際預測解碼的階段，采用的是 free running 的思想，也就是直接用上一個 step 解碼的輸出，來作為下一個 step 的輸入。

本文轉載自???丁師兄大模型??，作者：丁師兄

標簽

贊

收藏

回復

舉報

回復

相關推薦

8倍于SOTA模型發布，超分辨率細節還原度逆天，終于可以看清楚蜘蛛網絲了！

51CTO技術棧 ? 4013瀏覽 ? 0回復
10倍編碼速度逆天，全網最全實測來了

duhorse ? 4404瀏覽 ? 0回復
如何用ai生成寵物圖片？一鍵實現ai寵物圖片創作自由！

行走的小非 ? 6775瀏覽 ? 0回復
如何用ai繪畫二次元少女圖片？帶你體驗ai圖片創作樂趣

行走的小非 ? 2836瀏覽 ? 0回復
構建大模型，GPU是唯一生命線？未必

51CTO技術棧 ? 2799瀏覽 ? 0回復
小模型界o1來了：微軟推出Phi-4，數學推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個重要推斷

51CTO技術棧 ? 2469瀏覽 ? 0回復
手把手教你如何用扣子（COZE）打造一個企業級的知識庫機器人

風云2002_1 ? 5608瀏覽 ? 0回復
如何用 AI Agent 提升交易系統研發效率

ermulong ? 2908瀏覽 ? 0回復
MACT：如何用多Agent框架思路實現表格問答

大語言模型論文跟蹤 ? 2195瀏覽 ? 0回復
AI.com域名改跳 DeepSeek，蹭熱度

云原生AI百寶箱 ? 2101瀏覽 ? 0回復
1B模型如何通過測試時優化逆襲405B LLM？

arnoldzhw ? 2185瀏覽 ? 0回復
以前做PPT要3天，現在只要10分鐘！DeepSeek+Kimi 讓我效率起飛！

AI取經路 ? 2794瀏覽 ? 0回復
《Science》：用大語言模型模擬5億年生命進化

歐米伽未來研究所 ? 1975瀏覽 ? 0回復
QwQ-32B 大戰 DeepSeek-R1：小參數量模型能否逆襲？

Halo咯咯 ? 3312瀏覽 ? 0回復
看 Inconvo 如何用 LangGraph 讓小白秒變分析師

ermulong ? 1369瀏覽 ? 0回復
揭秘Embedding模型選型：如何用向量技術突破知識庫的智能天花板？

AI博物院 ? 1479瀏覽 ? 0回復
從0到$2500萬ARR：Lovable如何用LangSmith實現AI智能體高效監控與調試？

ermulong ? 1795瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：多詞元預測技術（Multi-Token Prediction, MTP）

Baihai_IDP ? 1555瀏覽 ? 0回復
遺傳算法：如何用“進化”解決復雜問題？

FairyGirlhub ? 1207瀏覽 ? 0回復

丁師兄大模型

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek為何要做MoE負載均衡？ 2025-06-12 00:24:35發布
騰訊二面真題：DeepSeek對MoE架構做了哪些改進？ 2025-04-18 06:00:14發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：騰訊二面真題：DeepSeek對MoE架構做了哪些改進？

下一篇： DeepSeek為何要做MoE負載均衡？

社區精華內容

目錄

主站蜘蛛池模板：日韩不卡一区二区 | a级在线免费观看 | 成人在线观看免费爱爱 | 五月综合久久 | 欧美精品在线播放 | 韩日av片 | 日韩欧美在线一区 | 日韩精品视频一区二区三区 | 尤物在线 | 亚洲午夜视频在线观看 | 91精品国产综合久久久动漫日韩 | 一区二区三区久久久 | 在线伊人 | 国产午夜精品视频 | 成人免费视频 | 中文字幕一二三 | 亚洲精品久久久一区二区三区 | 国产精品爱久久久久久久 | 亚洲精品久久久久avwww潮水 | 在线视频一区二区三区 | 中文字幕的av | 希岛爱理在线 | 欧美视频三级 | 成人动漫视频网站 | 成人免费av | 日韩精品1区2区3区爱爱综合网 | 欧美在线国产精品 | 成人av在线播放 | 一级黄色网页 | 欧美日韩综合一区 | 国产91精品久久久久久久网曝门 | 欧美成人猛片aaaaaaa | 国产91在线播放精品91 | a久久 | 黄色免费网址大全 | 91污在线 | 伊人精品一区二区三区 | 国产精品久久久久久婷婷天堂 | 久久久久久久久久久爱 | 欧美一级欧美三级在线观看 | 欧美日韩成人一区二区 |

<rt id="wuiqk"><tr id="wuiqk"></tr></rt>

<rt id="wuiqk"><tr id="wuiqk"></tr></rt>

<bdo id="wuiqk"><source id="wuiqk"></source></bdo>