成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首次將「教導(dǎo)主任」引入模型蒸餾,大規(guī)模壓縮優(yōu)于24種SOTA方法

人工智能 新聞
來(lái)自人民中科和中科院自動(dòng)化所的研究者,他們提出了一種基于 “教導(dǎo)主任 - 教師 - 學(xué)生” 模式的統(tǒng)一的模型壓縮技術(shù)。在與 24 種主流模型壓縮方法進(jìn)行比較后,證明本文所提方法的優(yōu)越性。

面對(duì)越來(lái)越深的深度學(xué)習(xí)模型和海量的視頻大數(shù)據(jù),人工智能算法對(duì)計(jì)算資源的依賴越來(lái)越高。為了有效提升深度模型的性能和效率,通過(guò)探索模型的可蒸餾性和可稀疏性,本文提出了一種基于 “教導(dǎo)主任 - 教師 - 學(xué)生” 模式的統(tǒng)一的模型壓縮技術(shù)。

該成果由人民中科和中科院自動(dòng)化所聯(lián)合研究團(tuán)隊(duì)合作完成,相關(guān)論文發(fā)表在人工智能頂級(jí)國(guó)際期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 上。該成果是首次將 “教導(dǎo)主任” 角色引入模型蒸餾技術(shù),對(duì)深度模型的蒸餾與裁剪進(jìn)行了統(tǒng)一。

圖片

論文地址:https://ieeexplore.ieee.org/abstract/document/9804342

目前該項(xiàng)成果已經(jīng)應(yīng)用于人民中科自主研發(fā)的跨模態(tài)智能搜索引擎 “白澤”。“白澤” 打破圖文音視等不同模態(tài)間信息表達(dá)的隔閡,將文字、圖片、語(yǔ)音和視頻等不同模態(tài)信息映射到一個(gè)統(tǒng)一特征表示空間,以視頻為核心,學(xué)習(xí)多個(gè)模態(tài)間統(tǒng)一的距離度量,跨越文字、語(yǔ)音、視頻等多模態(tài)內(nèi)容的語(yǔ)義鴻溝,實(shí)現(xiàn)大一統(tǒng)的搜索能力。

然而面對(duì)海量的互聯(lián)網(wǎng)數(shù)據(jù)尤其是視頻大數(shù)據(jù),跨模態(tài)的深度模型對(duì)計(jì)算資源的消耗逐漸提升。基于該項(xiàng)研究成果,“白澤”能夠在保證算法性能的情況下,將模型大小進(jìn)行大規(guī)模壓縮,從而實(shí)現(xiàn)高通量低功耗的跨模態(tài)智能理解和搜索能力。根據(jù)初步的實(shí)際應(yīng)用情況來(lái)看,該項(xiàng)技術(shù)能夠?qū)⒋竽P偷膮?shù)規(guī)模壓縮平均四倍以上。一方面能夠極大降低模型對(duì) GPU 服務(wù)器等高性能計(jì)算資源的消耗,另一方面能夠?qū)o(wú)法在邊緣端部署的大模型經(jīng)過(guò)蒸餾壓縮后實(shí)現(xiàn)邊緣端的低功耗部署。

模型壓縮的聯(lián)合學(xué)習(xí)框架

深度算法模型的壓縮和加速可通過(guò)蒸餾學(xué)習(xí)或結(jié)構(gòu)化稀疏裁剪實(shí)現(xiàn),但這兩個(gè)領(lǐng)域均存在一些局限性。對(duì)于蒸餾學(xué)習(xí)方法,旨在訓(xùn)練一個(gè)輕量化模型(即學(xué)生網(wǎng)絡(luò))來(lái)模擬復(fù)雜龐大的模型(即教師網(wǎng)絡(luò))。在教師網(wǎng)絡(luò)的指導(dǎo)下,學(xué)生網(wǎng)絡(luò)可以獲得比單獨(dú)訓(xùn)練的更優(yōu)性能。

然而,蒸餾學(xué)習(xí)算法僅僅專注于提升學(xué)生網(wǎng)絡(luò)的性能,往往忽略了網(wǎng)絡(luò)結(jié)構(gòu)的重要性。學(xué)生網(wǎng)絡(luò)的結(jié)構(gòu)一般是預(yù)定義好的,并且在訓(xùn)練過(guò)程中是固定的。

對(duì)于結(jié)構(gòu)化稀疏裁剪或?yàn)V波器裁剪,這些方法旨在將一個(gè)冗余繁雜的網(wǎng)絡(luò)裁剪成一個(gè)稀疏緊致的網(wǎng)絡(luò)。然而,模型裁剪僅僅用于獲得一個(gè)緊致的結(jié)構(gòu)。目前已有方法都沒(méi)有充分利用原始復(fù)雜模型所包含的“知識(shí)”。近期研究為了平衡模型性能和大小,將蒸餾學(xué)習(xí)和結(jié)構(gòu)化稀疏裁剪進(jìn)行結(jié)合。但是這些方法僅限于簡(jiǎn)單的損失函數(shù)的結(jié)合。

為了深入分析以上問(wèn)題,該研究首先對(duì)模型進(jìn)行基于壓縮感知訓(xùn)練,通過(guò)分析模型性能和結(jié)構(gòu)發(fā)現(xiàn),對(duì)于深度算法模型,存在兩個(gè)重要屬性:可蒸餾性(distillability)和可稀疏性(sparsability)。

具體而言,可蒸餾性指的是能夠從教師網(wǎng)絡(luò)中蒸餾出有效知識(shí)的密度。它可以通過(guò)學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下所獲得的性能收益來(lái)衡量。例如,擁有更高可蒸餾性的學(xué)生網(wǎng)絡(luò)可以獲得更高性能。可蒸餾性也可以在網(wǎng)絡(luò)層級(jí)別上被定量分析。

如圖 1-(a)所示,柱形圖表示蒸餾學(xué)習(xí)損失梯度和真值分類損失梯度之間的余弦相似度(Cosine Similarity)。更大的余弦相似度說(shuō)明當(dāng)前蒸餾的知識(shí)對(duì)于模型性能更有幫助。這樣,余弦相似度也可以成為可蒸餾性的一種度量。由圖 1-(a)可得,可蒸餾性隨著模型層數(shù)變深逐漸增大。這也解釋了為什么常規(guī)使用蒸餾學(xué)習(xí)的監(jiān)督均施加在模型最后幾層中。并且,在不同的訓(xùn)練輪次,學(xué)生模型也有不同的可蒸餾性,因?yàn)殡S著訓(xùn)練時(shí)間變化余弦相似度也在改變。因此,在訓(xùn)練過(guò)程中對(duì)不同層進(jìn)行可蒸餾性的動(dòng)態(tài)分析十分必要。

另一方面,可稀疏性指的是模型在有限精度損失下能夠獲得的裁剪率(或稱壓縮率)。更高的可稀疏性對(duì)應(yīng)更高裁剪率的潛力。如圖 1-(b)所示,網(wǎng)絡(luò)的不同層或模塊展現(xiàn)了不同的可稀疏性。類似于可蒸餾性,可稀疏性也可以在網(wǎng)絡(luò)層級(jí)別和時(shí)間維度進(jìn)行分析。然而,目前沒(méi)有方法去探索和分析可蒸餾性和可稀疏性。現(xiàn)有方法常常使用一種固定的訓(xùn)練機(jī)制,這樣很難達(dá)到一個(gè)最優(yōu)結(jié)果。

圖片

圖片

圖 1 深度神經(jīng)網(wǎng)絡(luò)的可蒸餾性和可稀疏性示意圖

為了解決以上問(wèn)題,該研究分析了模型壓縮的訓(xùn)練過(guò)程,從而獲得有關(guān)可蒸餾性和可稀疏性的相關(guān)發(fā)現(xiàn)。受這些發(fā)現(xiàn)啟發(fā),該研究提出了一種基于動(dòng)態(tài)可蒸餾性與可稀疏性聯(lián)合學(xué)習(xí)的模型壓縮方法。它能動(dòng)態(tài)結(jié)合蒸餾學(xué)習(xí)和結(jié)構(gòu)化稀疏裁剪,通過(guò)學(xué)習(xí)可蒸餾性和可稀疏性,自適應(yīng)地調(diào)節(jié)聯(lián)合訓(xùn)練機(jī)制。

與常規(guī)的 “教師 - 學(xué)生(Teacher-Student)” 框架不同,本文提出的方法能夠被描述成 “在學(xué)校學(xué)習(xí)(Learning-in-School)” 框架,因?yàn)樗竽K:教師網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)和教導(dǎo)主任網(wǎng)絡(luò)。

具體而言,與之前相同,教師網(wǎng)絡(luò)教導(dǎo)學(xué)生網(wǎng)絡(luò)。而教導(dǎo)主任網(wǎng)絡(luò)負(fù)責(zé)控制學(xué)生網(wǎng)絡(luò)學(xué)習(xí)的強(qiáng)度以及學(xué)習(xí)的方式。通過(guò)獲取當(dāng)前教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的狀態(tài),教導(dǎo)主任網(wǎng)絡(luò)可以評(píng)估當(dāng)前學(xué)生網(wǎng)絡(luò)的可蒸餾性和可稀疏性,然后動(dòng)態(tài)地平衡和控制蒸餾學(xué)習(xí)監(jiān)督和結(jié)構(gòu)化稀疏裁剪監(jiān)督的強(qiáng)度。

為了優(yōu)化本文方法,該研究還提出一種基于交替方向乘子法的蒸餾學(xué)習(xí) & 裁剪的聯(lián)合優(yōu)化算法,來(lái)更新學(xué)生網(wǎng)絡(luò)。為了優(yōu)化和更新教導(dǎo)主任網(wǎng)絡(luò),本文提出一種基于元學(xué)習(xí)的教導(dǎo)主任優(yōu)化算法。借助動(dòng)態(tài)調(diào)節(jié)監(jiān)督信號(hào),反過(guò)來(lái)可蒸餾性也能被影響。如圖 1-(a)所示,本文方法證明能夠延緩可蒸餾性的下降趨勢(shì),并且通過(guò)合理利用蒸餾的知識(shí),提升了整體的可蒸餾性。

本文方法的整體算法框架和流程圖如下圖所示。該框架包含三大模塊,教師網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)和教導(dǎo)主任網(wǎng)絡(luò)。其中,初始的待壓縮裁剪的復(fù)雜冗余網(wǎng)絡(luò)被看作教師網(wǎng)絡(luò),而在后面的訓(xùn)練過(guò)程中,逐漸被稀疏的原始網(wǎng)絡(luò)被看作是學(xué)生網(wǎng)絡(luò)。教導(dǎo)主任網(wǎng)絡(luò)是一個(gè)元網(wǎng)絡(luò),它輸入教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的信息來(lái)衡量當(dāng)前可蒸餾性和可稀疏性,從而控制蒸餾學(xué)習(xí)和稀疏的監(jiān)督強(qiáng)度。

這樣,在每一時(shí)刻,學(xué)生網(wǎng)絡(luò)都能被動(dòng)態(tài)地蒸餾知識(shí)指導(dǎo)和被稀疏。例如,當(dāng)學(xué)生網(wǎng)絡(luò)有更高的可蒸餾性,則教導(dǎo)主任會(huì)讓更強(qiáng)的蒸餾監(jiān)督信號(hào)指導(dǎo)學(xué)生網(wǎng)絡(luò)(見(jiàn)圖 2 中粉色箭頭信號(hào));與此相反,當(dāng)學(xué)生網(wǎng)絡(luò)有更高的可稀疏性,教導(dǎo)主任會(huì)讓更強(qiáng)的稀疏監(jiān)督信號(hào)施加于學(xué)生網(wǎng)絡(luò)中(見(jiàn)圖 2 中橙色箭頭信號(hào))。

圖片

圖 2 基于可蒸餾性與可稀疏性聯(lián)合學(xué)習(xí)的模型壓縮算法示意圖

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)將本文提出的方法與 24 種主流模型壓縮方法(包括稀疏裁剪方法和蒸餾學(xué)習(xí)方法)在小規(guī)模數(shù)據(jù)集 CIFAR 和大規(guī)模數(shù)據(jù)集 ImageNet 上進(jìn)行比較。實(shí)驗(yàn)結(jié)果如下圖所示,結(jié)果證明本文所提方法的優(yōu)越性。

表 1 在 CIFAR10 上的模型裁剪結(jié)果性能對(duì)比:

圖片

表 2 在 ImageNet 上的模型裁剪結(jié)果性能對(duì)比:

圖片

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-01-03 16:54:27

字節(jié)跳動(dòng)深度學(xué)習(xí)

2025-05-12 09:00:00

2017-01-20 08:53:37

數(shù)據(jù)系統(tǒng)架構(gòu)驅(qū)動(dòng)

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2023-06-28 08:23:41

搜索語(yǔ)義模型

2013-04-07 13:58:00

2022-07-07 11:00:09

美團(tuán)模型實(shí)踐

2025-03-18 08:19:01

2024-12-04 09:15:00

AI模型

2009-03-18 08:19:30

Myspace裁員搜索

2010-05-12 11:34:37

WiFi

2011-12-29 17:27:37

IPv6IPv4ARIN

2023-07-23 17:30:36

論文模型

2023-04-06 16:29:18

模型AI

2016-01-29 20:23:23

華為

2017-04-26 13:30:24

爬蟲(chóng)數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)

2009-04-09 09:32:00

VoWLANWLAN

2010-09-01 15:16:49

WLAN交換機(jī)結(jié)構(gòu)

2024-11-18 08:08:21

2013-10-10 16:54:29

3D 打印3D 打印技術(shù)開(kāi)源硬件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产成人精品久久二区二区91 | 一区二区三区免费看 | 久久www免费人成看片高清 | 亚洲视频在线观看 | 国产精品毛片一区二区三区 | 我想看一级黄色毛片 | 成人在线不卡 | 操一草 | 亚洲视频在线一区 | 午夜视频一区二区 | 欧美日韩在线视频观看 | av在线伊人 | 久久69精品久久久久久久电影好 | 国产99视频精品免视看9 | 天天综合天天 | 日韩视频―中文字幕 | 精品一区二区三区日本 | 久久国产精品久久久久久久久久 | 久久久精品日本 | 91久久久久久久久久久 | 亚洲精品视频在线播放 | 97精品国产97久久久久久免费 | 国产高清一区二区三区 | 亚洲国产aⅴ成人精品无吗 综合国产在线 | 一区二区视频在线 | 日本不卡一区 | 久久久久久国产精品三区 | 精品一区二区电影 | 国产免费一级一级 | 亚洲色欧美另类 | 免费一级黄色 | 亚洲精品日韩一区二区电影 | 美女国内精品自产拍在线播放 | 欧美大片在线观看 | 精品久久久久久 | 精品日韩一区二区 | 亚洲欧美一区二区三区视频 | 一区二区不卡 | 久久国产成人 | 水蜜桃久久夜色精品一区 | 色免费看|