成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文搞懂 DeepSeek 的蒸餾技術和案例實踐 原創

發布于 2025-2-24 14:23
瀏覽
0收藏

DeepSeek-R1 在其論文(???https://arxiv.org/abs/2501.12948???)引言部分指出,通過蒸餾技術,成功地將大模型的推理能力(比如:DeepSeek R1 671B)傳遞給了更小型化的模型(比如:Qwen 7B)。可以看出,蒸餾技術是 DeepSeek R1 重要的3大創新技術之一,下面詳細剖析。


一文搞懂 DeepSeek 的蒸餾技術和案例實踐-AI.x社區


1、DeepSeek 蒸餾技術深度解讀

蒸餾(Knowledge Distillation)是一種將大型復雜模型(教師模型,比如:D蒸餾(Knowledge Distillation)是一種將大型復雜模型(教師模型,比如:DeepSeek R1 671B)的知識遷移到小型高效模型(學生模型,比如:Qwen 7B)的技術。

蒸餾其核心目標是在保持模型性能的同時,顯著降低模型的計算復雜度和存儲需求,使其更適合在資源受限的環境中部署。

DeepSeek的蒸餾技術結合了數據蒸餾和模型蒸餾,通過教師模型(如DeepSeek R1)生成高質量的推理數據樣本,對較小的學生模型(如Qwen、Llama系列)進行微調。

蒸餾過程中不依賴強化學習階段,而是通過監督微調(SFT)實現高效的知識遷移。

蒸餾技術是否真的能讓小型模型同樣強大?事實證明,大型模型的推理模式可以通過蒸餾技術轉移到小型模型中,這種方法相較于僅在小型模型上應用強化學習發現的推理模式,能夠實現更卓越的性能表現。

第一、蒸餾技術的優勢

?顯著提升推理能力:通過從大模型中蒸餾知識,小模型在推理任務中的表現大幅提升,蒸餾后的模型在推理基準測試中表現出色,比如:DeepSeek-R1-Distill-Qwen-7B在 AIME 2024 上實現了55.5%的 Pass@1,超越了其他先進開源模型

?資源效率高:小模型在推理任務中表現出色,同時計算成本大幅降低,通過減少模型參數量(如從671B 到7B),顯著降低了計算資源需求,提升了推理速度

?靈活性強:蒸餾技術可以應用于多種開源模型,具有廣泛的適用性

第二、蒸餾技術的應用場景

?移動與邊緣計算:蒸餾模型體積小巧,適合在資源受限的設備上運行,如智能攝像頭、智能手表。

?在線推理服務:在電商推薦、智能問答系統中,蒸餾模型能夠快速響應用戶請求,提升用戶體驗。

?拓展應用場景:在醫療、金融、教育等領域,蒸餾模型將發揮更大作用,如疾病診斷、風險評估、個性化學習輔助等。

?多模態數據處理:開發更有效的信息融合和特征提取方法,提升蒸餾模型在多模態任務中的性能。

第三、DeepSeek 蒸餾技術4個核心步驟

步驟一、數據準備

?使用 DeepSeek R1 模型生成高質量的推理樣本(約800k個樣本)。

?這些樣本用于后續的小模型微調,確保小模型能夠學習到大模型的關鍵能力。

步驟二、模型選擇

選擇不同參數量的開源模型(如6個不同規模的模型)作為蒸餾目標。

?這些模型通過有監督微調(SFT)的方式進行訓練。

步驟三、有監督微調(SFT)

?使用從 DeepSeek R1 蒸餾出的數據對小模型進行直接微調。

?通過這種方式,小模型能夠顯著提升在推理任務中的表現。

步驟四、性能評估

?在多個開源基準測試中評估蒸餾模型的性能,如 LiveCodeBench和 MATH-500。

?結果顯示,蒸餾后的模型在推理任務中表現優異,甚至超越了一些大規模模型。


一文搞懂 DeepSeek 的蒸餾技術和案例實踐-AI.x社區

開源的 DeepSeek-R1 及其 API 將助力研究界在未來提煉出更優秀的小型模型。DeepSeek-R1 系列通過蒸餾得到的小型模型在多項基準測試中展現出顯著優勢,超越了先前開源的模型。特別是 DeepSeek-R1-Distill-Qwen-32B,其性能足以與 o1-mini 匹敵,而 DeepSeek 已向學術界開源了基于 Qwen2.5 和 Llama3 系列的不同參數規模的模型,包括 150億、70億、80億、140億、320億 和 700億參數的檢查點。這一顛覆性的0-1技術創新,讓硅谷的技術巨頭們感到不安,因為這一創新已在全球技術人員的驗證下,證實了基于 R1 論文方法可以成功蒸餾出與 o1-mini 性能相當的小型模型。再次向梁文峰大神致敬。

2、李飛飛50美金蒸餾 s1 案例實踐

第一、擁有自己公司的 DeepSeek R1,李飛飛 50美金蒸餾出 s1 模型案例剖析

s1 是一個偏科的大模型,它解決數學問題的能力很強,但其他方面就稍弱,但不妨礙這套方面在企業的落地應用,因為企業就是要解決專業領域問題。與 s1 最接近的是 DeepSeek R1 的一系列蒸餾模型,蒸餾微調訓練得到較小參數規模模型,參數從 1.5B 到 70B。

一文搞懂 DeepSeek 的蒸餾技術和案例實踐-AI.x社區

s1 使用 Google Gemin 蒸餾數據集得到,DeepSeek 蒸餾模型微調訓練使用了 80W條數據,而 s1 只用了 1000條數據,這是算力成本低到50美金的原因。第一、這1000條數據是從58000條數據中精選出來的。第二、推理階段引入了預算強制方法,強制設定思考過程的最大和最小長度,讓 AI 在回答問題時不能想都不想就瞎蒙,也不能一直陷入私循環,這個方法簡單,但有效提高了模型的推理性能。

每個公司都可以低成本擁有媲美 DeepSeek R1 的自己的 s1 大模型,仿照李飛飛教授精選 1000條左右專業領域高質量數據,注意包括推理過程的描述,也可以只準備問題,推理過程及結果數據通過大模型蒸餾得到。

一文搞懂 DeepSeek 的蒸餾技術和案例實踐-AI.x社區

實際上李飛飛所使用的數據集里面有相當一部分原本是有答案的,但是還是讓 Gemini 重新生成了過程和答案,這個量級的數據對于任何一個企業來說都不太難。

去年中科院有個團隊利用“百度弱智吧”的腦筋急轉彎預料僅240條數據,就有效提高了模型的效果。

有了這些數據以后,就去微調訓練 Qwen 32B 或者類似規模的模型,最后推理任務時,通過預算強制的方法限定推理長度,這就得到一個專屬您企業的領域專家 DeepSeek R1 大模型。

第二、s1 蒸餾實施過程和效果

基于阿里通義千問 Qwen2.5-32B-Instruct 開源模型為底座,僅使用16塊H100 GPU,通過26分鐘的有監督微調,便打造出了性能卓越比肩 OpenAI  的 O1 和 DeepSeek 的 R1 等尖端推理模型的 s1-32B 模型。

這一模型不僅在數學及編碼能力上與 OpenAI 的 o1 和 DeepSeek 的 R1 等頂尖推理模型相當,在競賽數學問題上的表現更是比  o1-preview  高出27%。

不過,值得注意的是,雖然媒體報道中強調 s1 模型只要不到50美元成本,但 s1 模型的訓練并非從零開始,而是基于阿里云通義千問(Qwen)模型進行監督微調。

這意味著,s1 模型的神奇“低成本”,是建立在已具備強大能力的通義千問開源基礎模型“巨人肩膀”之上完成的。

第三、李飛飛 s1 模型、數據、代碼均已開源

獲取地址:??https://github.com/simplescaling/s1??

論文地址:???https://arxiv.org/pdf/2501.19393??


本文轉載自公眾號玄姐聊AGI  作者:玄姐

原文鏈接:??https://mp.weixin.qq.com/s/mwdv-LlWsUV-bV-YfffYKQ??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 成人免费看| 成人小视频在线观看 | 日本中文字幕在线观看 | 欧美最猛黑人xxxⅹ 粉嫩一区二区三区四区公司1 | 国产激情一区二区三区 | 天堂精品视频 | 91国产在线视频在线 | 欧美精品片 | 亚州精品天堂中文字幕 | 久久亚洲一区二区 | 久久久成人免费视频 | 免费成人高清 | 日韩一区二区三区在线看 | 久草视频观看 | 精品99久久久久久 | 久久专区 | 91精品无人区卡一卡二卡三 | 日韩中文字幕视频在线 | 久久在线| 91高清在线观看 | 国产成人精品a视频一区www | 男人av网 | 中文字幕高清 | 国产精品国产三级国产aⅴ中文 | 中文字幕免费视频 | 九九久久国产 | 国产在线看片 | 青娱乐av| 精品欧美一区二区三区免费观看 | 亚州精品天堂中文字幕 | 国产精品美女久久久久久久网站 | 999精品视频 | 国产高清免费 | 亚洲精品www| 91精品综合久久久久久五月天 | 黄色香蕉视频在线观看 | 日韩中文在线视频 | 亚洲精品高清视频在线观看 | 久久网一区二区三区 | 成年人的视频免费观看 | 精品国产一区二区三区久久狼黑人 |