成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁

AI.x社區

博客

學堂

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

在線學習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

丁師兄大模型

LV.1

前阿里算法專家，持續輸出大模型面試干貨~

帖子 8

聲望 90

關注 0

粉絲 1

社區頭條作者

私信

關注

主帖 8

回帖

DeepSeek為何要做MoE負載均衡？

?DeepSeek是如何做專家的負載均衡的？如果你在面試時被問到這個問題，應該怎么回答呢？1.面試官心理分析從面試官的角度來看，你至少得答到下面這兩個層面：第一層，為什么要做專家的負載均衡，動機是什么？第二層，DeepSeek是怎么做的，它具體有什么高明之處？好，那接下來我們就一起來分析拆解一下這道面試題目。2.面試題解析首先第一點，為什么要做專家的負載均衡？這里先給大家科普一下負載均衡的概念，它實際上是分布式服...

2025-06-12 00:24:35 714瀏覽 0點贊 0回復 0收藏

DeepSeek如何用MTP逆天改命？

DeepSeekV3的MultiTokenPrediction到底在做什么？這個問題在大模型面試中經常被問到，屬于DeepSeek的高頻面試題。所以這篇文章我們就來看看，如果你在面試現場被問到這個問題，應該如何作答？1.面試官心理分析首先老規矩，我們還是來分析一下面試官的心理，面試官問這個問題，它其實主要是想考察你3個方面：第一，為什么要做MTP？你是否知道這個算法背后的動機？第二，之前的工作MTP是怎么做的？DeepSeek肯定不是這個方法的首創...

2025-04-30 06:23:53 1566瀏覽 0點贊 0回復 0收藏

騰訊二面真題：DeepSeek對MoE架構做了哪些改進？

DeepSeek對MoE架構做了哪些改進？跟Mixtral的MoE有什么不同？這個是我的學員最近面試某個大模型獨角獸遇到的一道面試題。1.面試官心理分析這篇文章，我們就從面試官的角度來分析一下，如果你在面試現場被問到這個題目，應該如何作答？面試官問這個問題，它其實是想考你什么？第一，Mixtral大模型采用的MoE架構長什么樣？第二，就是DeepSeek的MoE做了哪些改進，這樣改進的動機是什么？2.面試題解析要回答DeepSeek的MoE改進，我們...

2025-04-18 06:00:14 1463瀏覽 0點贊 0回復 0收藏

寫給大模型新人的經驗，刷到少走三年彎路！

大家好，我是丁師兄。這篇文章，我將結合自己在大模型領域的經驗，給大家詳細聊聊新人應該如何轉行大模型賽道？比如大模型都有哪些方向？各方向的能力要求和崗位匹配？新手轉行大模型常踩的坑和常見的誤區？以及入行大模型最順滑的路徑？如果你是正打算入行大模型的校招社招同學，請一定看完，可能會讓你在入行大模型的路上，少走很多彎路。1.大模型都有哪些方向？如果你在求職網站搜索"大模型"關鍵詞，看一下招聘JD，基本可以...

2025-02-03 13:29:25 3435瀏覽 0點贊 0回復 0收藏

阿里面試驚現難題：大模型服務吞吐率太小咋整？

想象一下，就像咱們家里的水管，正常來講水應該嘩嘩地流，可要是這管子太窄了，水就只能滴滴答答，讓人干著急！當下咱們面臨的大模型服務吞吐率太小，不就類似于這窄窄的水管嗎？當面試官問你有沒有辦法把大模型服務吞吐這個“管子”拓寬，讓數據像奔騰的江河一樣順暢流淌，你準備怎么解決？1.面試官心理分析當面試官問你這個問題的時候，其實面試官主要是想考驗你如下3個方面：第一，在實際業務中，你有沒有做過大模型服務性能...

2025-01-17 12:05:44 2100瀏覽 0點贊 0回復 0收藏

新來的妹子不懂大模型中的token！已勸退...

?相信你只要了解過大模型，就聽過token這個詞兒，大家在用ChatGPT的API時，是按token計費的。例如，你提問消耗了100token，ChatGPT根據你的輸入，回答了200token，那么一共消費的token數就是300。有時候看一些偏技術的文章，一些模型后面帶著8k、32k，甚至100k，這也是指模型能處理的最大token長度。既然token在大模型領域這么高頻出現，我們不禁要問：什么是token？它是怎么計算的？一個token是指一個字嗎？中文和英文的token...

2025-01-09 12:29:35 5523瀏覽 0點贊 0回復 0收藏

這個大模型Badcase修復方案，我服！

工作以后，對于做業務的同學，一個避免不了的話題就是“badcase”，在大模型時代，當然也是避免不了的問題。對于很多沒接觸過實際業務的同學可能認為大模型足夠強，強到可以很好的fit用戶的所有需求，就算fit不了，也可以微調模型來解決。但實際情況是怎樣呢？其實不管是大模型，還是專有領域小模型，一定存會各式各樣模型解決不了的badcase。具體原因很多，以智能客服系統為例，用戶的咨詢分布也符合二八原則，即用戶80%的咨詢...

2024-12-31 12:38:29 2583瀏覽 0點贊 0回復 0收藏

SFT loss計算的那些坑，完美避開！！！

?SFT可以說是LLM的基本操作了，如果只是想把SFT跑起來是非常簡單的，只需要構造inputids和labels，然后就可以把訓練跑起來。然而，這樣的訓練效率實際上非常低。所以在訓練時，通常有兩個加速方法：多輪合并packing無論是哪種方法，加速后都需要保證loss和原來是等價的。本文主要介紹這兩種加速方法，以及loss計算時遇到的問題。1.多輪合并假設我們有一個對話，其中user和bot交互了3輪，我們可以構建三個樣本：inputids就是對...

2024-12-11 10:48:39 3027瀏覽 0點贊 0回復 0收藏

獲得成就

已積累 4635 人氣

獲得 0 個點贊

獲得 0 次收藏

<strike id="ggays"></strike>