成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

被DeepSeek帶火的知識蒸餾,開山之作曾被NeurIPS拒收,Hinton坐鎮都沒用

人工智能 新聞
稱得上是“蒸餾圣經”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合寫的《Distilling the Knowledge in a Neural Network》,當年被NeurIPS 2014拒收。

DeepSeek帶火知識蒸餾,原作者現身爆料:原來一開始就不受待見

稱得上是“蒸餾圣經”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合寫的《Distilling the Knowledge in a Neural Network》,當年被NeurIPS 2014拒收。

如何評價這篇論文的含金量?

它提出了知識蒸餾這一概念,能在保證準確率接近的情況下,大幅壓縮模型參數量,讓模型能夠部署在各種資源受限的環境。

比如Siri能夠出現在手機上,就是用知識蒸餾壓縮語音模型。

自它之后,大模型用各種方法提高性能上限,再蒸餾到小模型上已經成為一種行業標配。

再來看它的主創陣容。

Hinton,深度學習之父,如今已是諾獎得主。

Oriol Vinyals,Google DeepMind研究科學家,參與開發的明星項目包括TensorFlow、AlphaFold、Seq2Seq、AlphaStar等。

Jeff Dean,Google DeepMind首席科學家、從2018年開始全面領導谷歌AI。大模型浪潮里,推動了PaLM、Gemini的發展。

不過,那又怎樣?

主創之一Oriol Vinyals表示,因為缺乏創新和影響力,這篇論文被拒啦。謝謝審稿人(字面意思),謝謝arxiv!

方法簡單、適用于各種模型

簡單粗暴總結,《Distilling the Knowledge in a Neural Network》是一篇更偏工程性改進的文章,但是帶來的效果提升非常顯著。

Caruana等人在2006年提出了將集成知識壓縮到單模型的可能性,論文中也明確提到了這一點。

Hinton等人的工作是提出了一種簡單有效的知識遷移框架,相較于Caruana團隊的方法更加通用。

方法看上去非常簡單:

  • 用軟目標代替硬目標
  • 在softmax層加入溫度參數T。當T=1時,就是普通的softmax輸出。T越大,輸出的概率分布越平滑(soft)。

他們認為此前人們習慣性地將模型中的知識與模型的具體參數綁定在一起,因此很難想到該如何在改變模型結構的同時仍舊保留這些知識。

如果把知識看作是輸入向量到輸出向量的一個抽象映射,而不是某種固定的參數實現,就能更容易理解如何將知識從一個模型轉移到另一個模型。

知識蒸餾的關鍵就是讓小模型模仿大模型的“理解方式”,如果大模型是多個模型的集成,表現出很強的泛化能力,那就通過蒸餾訓練小模型去學習這種泛化方式,這種方法能讓小模型集成大模型的知識精髓,同時更適合實際應用部署。

怎么將泛化能力轉移?

讓大模型生成類別概率作為軟目標,以此訓練小模型。

在這個轉移階段,使用與原始訓練相同的數據集,或者單獨準備一個“遷移”數據集。

如果大模型是由多個模型集成,那就取它們的預測平均值。

軟目標的特點是,它具有高熵時(即預測的概率分布更平滑),每個訓練樣本中包含的信息量比硬目標要多得多,訓練樣本之間的梯度變化也更小。

因此,用軟目標訓練小模型時,往往可以使用比原始模型更少的數據,并且可以采用更高的學習率。

小模型可以用無標簽數據或原始訓練。如果用原始訓練數據,可以讓小模型同時學習來自大模型的軟目標和真實標簽,這樣效果會更加好。

具體方法是使用軟目標的交叉熵損失、真實標簽的交叉熵損失兩個目標函數加權平均。如果真實標簽的交叉熵損失權重較小時,往往能獲得最佳效果。

此外,他們還發現軟目標的梯度大小隨著T2縮放,同時使用真實標簽和軟目標時,比如將軟目標的梯度乘以T2,這樣可以確保在調整蒸餾溫度這一超參數時,硬目標和軟目標的相對貢獻保持大致不變。

實驗結果顯示,在MINIST數字時延中,教師模型(1200層)的錯誤案例為67個,學生模型(800層)使用蒸餾后的錯誤案例為74個。

在JFT數據集上,基準模型的錯誤率為27.4%,集成模型的錯誤率為25%。蒸餾模型錯誤率為25.6%,效果接近集成模型但計算量大幅減少。

語音識別實驗上,蒸餾模型也達到了與集成模型相同的性能,但是僅使用了3%的訓練數據。

或許還有很多滄海遺珠

值得一提的是,Vinyals還表示,提出了LSTM的Jürgen Schmidhuber在1991年發表的一篇文章,這可能與現在火熱的長上下文息息相關。

他提到的應該是《Learning complex, extended sequences using the principle of history compression》這篇論文。其核心內容是利用歷史壓縮的原則,即通過模型結構和算法將序列的歷史信息有效地編碼和存儲,從而減少處理長序列時的計算開銷,同時保留關鍵的信息。

有人就說,不妨設置一個時間檢驗獎頒給那些未被接收的論文吧。

同時也有人在這個話題下想到了DeepSeek。

曾在蘋果、谷歌工作過的Matt Henderson表示,DeepSeek做的蒸餾只是基于教師模型輸出的微調,并沒有用到軟目標(因為模型的分詞方式不同)。

Vinyals回應說,那看來我們取蒸餾這個名字真的不錯~

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-27 10:41:53

2024-01-26 12:48:49

AI數據

2025-03-03 11:41:11

2023-12-25 09:35:51

自動駕駛技術

2023-11-15 09:24:00

數據訓練

2023-12-11 14:21:00

模型訓練

2010-09-08 23:27:26

私有云

2021-10-14 06:29:56

薪資舉報機制

2022-02-10 11:32:40

DynamoDB亞馬遜云科技數據庫

2025-03-14 11:57:43

2022-10-20 15:45:12

編程開發

2017-09-03 13:17:27

深度學習計算機視覺卷積神經網絡

2022-05-30 10:29:59

人臉識別AI搜索

2020-03-23 10:45:32

C語言C++Web

2025-01-10 14:00:00

2023-10-25 13:37:04

Git

2025-04-27 09:23:00

模型訓練AI

2025-05-21 06:58:03

2012-06-19 13:05:59

2024-04-01 08:23:20

代碼Javajavascript
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧洲精品在线观看 | 亚洲日产精品 | 国产精品久久久久aaaa | 免费视频一区 | 日本成人毛片 | 久久精品一 | 91国内精品| 久久亚洲欧美日韩精品专区 | 不卡的av电影 | 紧缚调教一区二区三区视频 | 欧美精品久久久 | 亚洲一区二区在线电影 | 国产午夜亚洲精品不卡 | 国产精品久久久久久久久婷婷 | www.伊人.com | 99国产精品99久久久久久粉嫩 | 亚洲永久字幕 | 欧美亚州 | 在线中文视频 | 成人免费淫片aa视频免费 | 中文字幕亚洲一区二区三区 | 国产成人在线一区 | 婷婷国产一区二区三区 | 成人国产一区二区三区精品麻豆 | 成人一区二区视频 | 日本高清视频在线播放 | 精品一区二区三区在线视频 | 不卡一区二区在线观看 | 91精品国产综合久久久密闭 | 亚洲精品电影在线观看 | 日本天天色 | 欧美一区二区三区在线观看 | 亚洲欧美视频一区 | 91高清视频在线观看 | 国产精品99视频 | 日韩1区2区 | 日韩精品久久一区二区三区 | 免费久 | 天天操夜夜骑 | 亚洲精品片 | 国产一区二区欧美 |