成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何高效、精準地進行圖片搜索?看看輕量化視覺預訓練模型

人工智能 新聞
本文將深入講解輕量化視覺預訓練模型的發展、關鍵技術、應用和潛力,以及未來的機遇和挑戰。

?你是否有過圖像檢索的煩惱?

或是難以在海量化的圖像中準確地找到所需圖像,或是在基于文本的檢索中得到差強人意的結果。對于這個難題,微軟亞洲研究院和微軟云計算與人工智能事業部的研究人員對輕量化視覺模型進行了深入研究,并提出了一系列視覺預訓練模型的設計和壓縮方法,實現了視覺 Transformer 的輕量化部署需求。

目前該方法和模型已成功應用于微軟必應搜索引擎,實現了百億圖片的精準、快速推理和檢索。本文將深入講解輕量化視覺預訓練模型的發展、關鍵技術、應用和潛力,以及未來的機遇和挑戰,希望大家可以更好地了解輕量化視覺預訓練領域,共同推進相關技術的發展。

近來,基于 Transformer 的視覺預訓練模型在諸多計算機視覺任務上都取得了優越性能,受到了廣泛關注。然而,視覺 Transformer 預訓練模型通常參數量大、復雜度高,制約了其在實際應用中的部署和使用,尤其是在資源受限的設備中或者對實時性要求很高的場景中。因此,視覺預訓練大模型的“輕量化”研究成為了學術界和工業界關注的新熱點。

對此,微軟亞洲研究院和微軟云計算與人工智能事業部的研究員們在視覺大模型的結構設計和訓練推斷上進行了深入探索,同時還對大模型的輕量化、實時性以及云端部署也做了創新應用。本文將從輕量化視覺預訓練模型的發展談起,探討模型輕量化研究中的關鍵技術,以及輕量化視覺 Transformer 模型在實際產品中的應用和潛力,最后展望輕量化視覺模型的未來發展機遇和挑戰。

視覺大模型層出不窮,輕量化預訓練模型卻乏人問津

最近幾年,深度學習在 ImageNet 圖像分類任務上的進展主要得益于對視覺模型容量的大幅度擴增。如圖1所示,短短幾年時間,視覺預訓練模型的容量擴大了300多倍,從4,450萬參數的 ResNet-101 模型,進化到了擁有150億參數的 V-MoE 模型,這些大型視覺預訓練模型在圖像理解和視覺內容生成等任務上都取得了長足進步。

圖片

圖1:視覺預訓練模型參數量的變化趨勢圖

無論是微軟的30億參數 Swin-V2 模型,還是谷歌發布的18億參數 ViT-G/14 模型,視覺大模型在眾多任務中都展現了優越的性能,尤其是其強大的小樣本(few-shot) 甚至是零樣本 (zero-shot) 的泛化能力,對實現通用智能非常關鍵。

然而,在很多實際場景中,由于存儲、計算資源的限制,大模型難以直接部署或者無法滿足實時需求。因此,輕量級的視覺預訓練模型研究變得越來越重要,且具有很強的實際應用價值。盡管目前有一些工作在探討輕量級模型,但是這些方法大多是針對特定任務、特定結構設計的,在設計和訓練過程中沒有考慮到模型的通用性,存在跨數據域、跨任務的泛化局限性。

輕量化視覺模型的關鍵技術研究

為了實現輕量化視覺預訓練模型,微軟的研究員們發現了兩大關鍵問題:1)如何設計出通用性更強的輕量化模型結構?2)受制于輕量化視覺預訓練模型的有限容量,如何設計高效的預訓練方法讓小模型也能學習到大規模數據中的有效信息?面對這些難題,研究員們通過堅持不懈的研究和探索,目前取得了一些階段性成果。

由于提高輕量化預訓練模型通用性的核心在于如何在資源受限(參數量,時延等)的情況下強化模型的學習能力,使其能夠更好地在大規模數據中學習通用特征,因此,研究員們從以下三個角度進行了深入探索:

1. 輕量化模塊設計?

輕量、低延時的模塊是組成輕量級模型的重要部分。在卷積神經網絡中,具有代表性的輕量級模塊有MobileNet的反向殘差模塊(Inverted Residual Block)以及 ShuffleNet 的通道隨機交叉單元(Shuffle Unit)。在視覺 Transformer 結構中,由于圖像塊之間注意力的計算沒有很好地考慮相對位置編碼信息,因此研究員們設計了即插即用的輕量級二維圖像相對位置編碼方法 iRPE [1],它不需要修改任何的訓練超參數,就能提高模型的性能。此外,針對視覺 Transformer 參數冗余的問題,研究員們設計了權重多路復用(Weight Multiplexing)模塊 [2]。如圖2所示,該方法通過多層權重復用減少模型參數的冗余性,并且引入不共享的線性變換,提高參數的多樣性。

圖片

圖2:Transformer 中的權重多路復用模塊

2. 輕量化模型搜索?

網絡結構搜索(Neural Architecture Search)可以從模型設計空間中自動找到更加輕量、性能更加優異的模型結構 [3]。在卷積神經網絡中,代表性工作有 NASNet 和 EfficientNet 等。在視覺 Transformer 結構搜索中,針對視覺模型中的通道寬度、網絡深度以及 head 數量等多個維度,研究員們先后提出了 AutoFormer [4] 和 S3 [5],實現了視覺模型的動態可伸縮訓練與結構搜索。在同樣模型精度的情況下,搜索得到的新模型具有更小的參數量和計算量。值得注意的是,在 S3 中,研究員們利用 E-T Error [5]以及權重共享超網來指導、改進搜索空間,在得到更高效的模型結構的同時也分析了搜索空間的演進過程,如圖3所示。與此同時,模型結構搜索的過程為輕量化模型的設計提供了有效的設計經驗和參考。

圖片

圖3:輕量級模型搜索空間進化過程

3. 視覺大模型壓縮與知識遷移?

輕量級預訓練模型的另一難題在于,由于模型容量有限,難以直接學習大規模數據中包含的豐富信息和知識。為了解決這一問題,研究員們提出了快速預訓練蒸餾方案,將大模型的知識遷移到輕量化的小模型中 [6]。如圖4所示,和傳統的單階段知識蒸餾不同,快速預訓練蒸餾分為兩個階段:1)壓縮并保存大模型訓練過程中使用的數據增廣信息和預測信息;2)加載并恢復大模型的預測信息和數據增廣后,利用大模型作為教師,通過預訓練蒸餾指導輕量化學生模型的學習和訓練。不同于剪枝和量化,該方法在權重共享的基礎上使用了上文中提到的權重復用[2],通過引入輕量級權重變換和蒸餾,成功壓縮視覺預訓練大模型,得到了通用性更強的輕量級模型。在不犧牲性能的情況下,該方法可以將原有大模型壓縮數十倍。

圖片

圖4:快速預訓練知識蒸餾

這一系列的研究成果,不僅在計算機視覺的頂級學術會議上(CVPR、ICCV、ECCV、NeurIPS等    )發表了多篇論文[1-6],也通過和微軟必應的合作,成功將輕量化預訓練模型應用到了圖像搜索產品中,提高了實際業務中圖像和視頻內容理解的能力。

輕量級視覺預訓練模型的應用

輕量級視覺預訓練模型在實際中有諸多用途,尤其是在實時性要求高或者資源受限的場景中, 例如:云端視頻實時渲染和增強、端測圖像、視頻內容理解。輕量級視覺模型已經在智能零售、先進制造業等領域展現出了廣闊的應用前景,將來還會在元宇宙、自動駕駛等新興行業發揮重要作用。以微軟必應產品中的圖像內容搜索為例,下面為大家展示一下輕量化視覺模型的實際應用和部署。

目前,基于內容的圖片搜索在圖片的類別屬性理解上已經比較成熟,但對于復雜場景的內容理解仍有很大的挑戰。復雜場景的圖片通常具有大景深、背景雜亂、人物多、物體關系復雜等特點,顯著地增加了內容理解的難度,因而對預訓練模型的魯棒性和泛化性提出了更高的要求。

舉例來說,動漫圖片的搜索質量在很長一段時間內無法得到有效提升,其主要的挑戰包括:繪畫線條和顏色比真實場景圖片更加夸張,包含更多動作和場景,不同漫畫之間的風格內容差異巨大。圖5到圖7分別展示了“灌籃高手”、“皮卡丘”和“足球小將”三種不同的動漫人物和行為,其漫畫風格和內容差別迥異。如何有效地理解漫畫圖片內容,對視覺預訓練模型提出了較高的要求。

圖片

圖5:在微軟必應搜索引擎中,對灌籃高手的動作理解包括:扣籃,運球,搶斷,投籃等

圖片

圖6:在微軟必應搜索引擎中,對皮卡丘行為的理解比如吃蘋果、吃西瓜,吃雪糕等

圖片

圖7:在微軟必應搜索引擎中,對足球小將射門動作的特寫

上文中提到的輕量級視覺通用模型以及快速預訓練蒸餾算法目前已成功應用于微軟必應搜索引擎中。借助微軟亞洲研究院提供的視覺語言多模態預訓練模型,微軟必應圖片搜索功能增強了對漫畫內容的理解,可以返回與用戶需求更為匹配的圖片內容。

與此同時,微軟必應搜索引擎龐大的索引庫對于檢索效率有非常高的要求。微軟亞洲研究院提供的快速預訓練蒸餾方法有效地將預訓練大模型的索引能力遷移到輕量化模型中,在識別準確率上將現有模型提升了14%,同時極大地優化了模型的計算效率,實現了百億圖片的快速推理。

未來的機遇與挑戰

模型輕量化是人工智能未來應用落地的核心。隨著視覺技術、算法、算力和數據等不斷完善,模型的復雜度急劇攀升,神經網絡計算的能耗代價越來越高。輕量化視覺模型高效的計算效率和低廉的部署應用成本,能夠在未來更多的實際產品中發揮巨大優勢。除此之外,本地化的輕量級預訓練視覺模型在支持更多服務的同時,還能夠更好地保護用戶數據和隱私。用戶的數據將不再需要離開設備,即可實現模型服務等功能的遠程升級。

當然,研究人員也意識到輕量級預訓練視覺模型所面臨的挑戰:一方面在模型結構設計上,如何在模型參數量和推理延時的限制下達到模型的最優學習能力,一直以來都是學術界和工業界密切關注的問題。雖然目前已經沉淀了不少有效的模型結構,在通用近似定理(UAT)、神經網絡結構搜索(NAS)等領域也取得了長足的發展,但是現有的輕量級預訓練視覺模型和視覺大模型之間仍有差距,有待進一步優化和提升。另一方面在訓練方法上,學術界和工業界針對視覺大模型提出了自監督、圖像分類和多模態等多種訓練方法,顯著提升了模型的通用能力。如何針對容量有限的輕量級模型設計更有效的訓練方式,還需要進一步的研究和探索。微軟亞洲研究院的研究員們將不斷推進輕量級預訓練視覺模型的科研進展,也歡迎更多科技同仁共同交流、探索該領域的相關技術。?

責任編輯:張燕妮 來源: 微軟研究院AI頭條
相關推薦

2017-12-26 13:53:31

深度學習遷移學習

2019-09-27 12:44:03

數據建模企業數據存儲

2022-03-04 19:07:03

模型視覺人工智能

2022-06-16 19:53:51

AIAI模型

2010-03-03 15:06:52

Android 游戲開

2025-05-19 09:32:06

2023-02-01 09:46:29

2024-12-02 10:40:00

AI模型

2023-07-03 16:15:46

模型訓練

2024-01-29 00:24:07

圖像模型預訓練

2024-09-02 14:30:00

數據訓練

2016-04-20 15:36:38

圖片壓縮工具輕量化

2020-11-12 09:55:10

百度

2012-02-08 16:19:09

ibmdw

2012-02-14 12:50:13

ibmdw

2023-03-15 16:31:56

系統聲音收錄鴻蒙

2021-03-08 07:46:53

Git開源控制系統

2025-06-13 09:29:51

2023-01-05 09:33:37

視覺模型訓練

2025-05-06 13:42:16

微軟Phi-4模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 999久久久国产精品 欧美成人h版在线观看 | 精品视频一区二区三区在线观看 | 一区二区三区四区视频 | 日本一区二区三区在线观看 | 中文字幕亚洲视频 | 中文字幕亚洲一区二区三区 | 国产日韩精品在线 | 久久久久国产一级毛片高清网站 | 精品国产一区二区三区久久久蜜月 | 91精品在线播放 | 亚洲欧美综合精品久久成人 | 色视频网站在线观看 | av一区二区三区四区 | 99一级毛片 | 夜久久 | 国产精品毛片一区二区三区 | 一区二区精品视频 | tube国产| 九九热精品视频 | 久久久国产精品 | 久久久久国产一区二区三区 | 国产成人免费在线 | 成人免费小视频 | 日韩美女在线看免费观看 | 欧美videosex性极品hd | 亚洲精品久久久一区二区三区 | 国产精品久久久久久久久久三级 | 久久精品免费 | 国产精品久久久亚洲 | 97伦理| 欧美激情一区二区三区 | 欧美日韩国产精品一区 | 亚洲国产成人久久久 | 午夜电影网址 | 爱操av | 免费在线观看av网址 | 久久一区二区三区电影 | 欧美福利在线 | 亚洲成人av在线播放 | 玖玖免费 | 91福利网址 |