2022 Top10自監督學習模型發布!美中兩國八項成果霸榜
?自監督學習使計算機能夠觀察世界,通過學習圖像、語音或文本的結構來了解世界。這推動了人工智能最近的許多重大進展。
盡管世界科研人員在該領域投入大量精力,但目前自我監督學習算法從圖像、語音、文本和其他模式中學習的方式存在很大差異。因此,人工智能論壇Analytics India Magazine推出2022年十大自監督學習模型,以饗讀者。?
Data2vec
論文鏈接:https://arxiv.org/pdf/2202.03555.pdf
開源代碼:https://t.co/3x8VCwGI2x pic.twitter.com/Q9TNDg1paj
Meta AI 在一月份發布了 data2vec 算法,用于語音、圖像和文本相關的計算機視覺模型。根據AI團隊,該模型在NLP任務中具有很強的競爭力。
它不使用對比學習或依賴于輸入示例的重建。Meta AI團隊表示,data2vec的訓練方式是通過提供輸入數據的部分視圖來進行預測模型表示。
該團隊表示:「我們首先在學生模型中對掩碼的訓練樣本編碼。之后,在相同模型中,對未掩碼的輸入樣本編碼,從而構建訓練目標。這個模型(教師模型)和學生模型只有參數上的不同。」
該模型根據掩碼的訓練樣本,預測未掩碼訓練樣本的模型表示形式。這消除了學習任務中對特定于模態的目標的依賴。
ConvNext
論文鏈接:https://arxiv.org/pdf/2201.03545.pdf
開源代碼:https://t.co/nWx2KFtl7X
ConvNext也叫ConvNet model for the 2020s,是Meta AI團隊于三月發布的一款模型。它完全基于 ConvNet的模塊,因此準確、設計簡單且可擴展。
VICReg
論文鏈接:https://t.co/H7crDPHCHV
開源代碼:https://t.co/oadSBT61P3
方差不變性協方差正則化(VICReg)結合了方差項和基于冗余約簡的去相關機制以及協方差正則化,以避免編碼器產生恒定或非信息向量的崩潰。
VICReg不需要諸如分支之間的權重共享、批量標準化、特征標準化、輸出量化、停止梯度、memory banks等技術,并在幾個下游任務上達到的結果與最先進水平相當。此外,通過實驗可證明,方差正則化項可以穩定其他方法的訓練,并促進性能的提高。
STEGO
論文鏈接:https://arxiv.org/abs/2203.08414
麻省理工學院的計算機科學與人工智能實驗室與微軟和康奈爾大學合作開發了基于能量的圖形優化的自我監督轉換器(STEGO),解決計算機視覺中最困難的任務之一:在沒有人工監督的情況下為圖像的每一個像素分配標簽。
STEGO學習了「語義分割」——簡單來說,就是為圖像中的每個像素分配標簽。
語義分割是當今計算機視覺系統的一項重要技能,因為圖像可能會受到對象物體的干擾。更難的是,這些對象并不總是適合文字框。相比于植被、天空和土豆泥這樣難以量化的東西,算法往往更適用于離散的「事物」,比如人和汽車。
以狗在公園里玩耍的場景為例,以前的系統可能只能識別出狗,但是通過為圖像的每個像素分配一個標簽,STEGO可以將圖像分解為若干主要成分:狗、天空、草和它的主人。
可以「觀察世界」的機器對于自動駕駛汽車和醫療診斷預測模型等各種新興技術至關重要。由于STEGO可以在沒有標簽的情況下學習,它可以檢測不同領域的對象,甚至是人類尚未完全理解的對象。
CoBERT
論文鏈接:https://arxiv.org/pdf/2210.04062.pdf
對于自我監督語音表示學習,香港中文大學(深圳)的研究人員提出了Code BERT(CoBERT)。與其他自蒸餾方法不同,他們的模型預測來自不同模態的表征。該模型將語音轉換為一系列離散代碼,用于表示學習。
首先,該研究團隊使用HuBERT預訓練代碼模型在離散空間中進行訓練。然后,他們將代碼模型提煉成語音模型,旨在跨模態執行更好的學習。ST任務的顯著改進表明,與以前的工作相比,CoBERT的表示可能攜帶更多的語言信息。
CoBERT在ASR任務上的表現優于目前最佳算法的性能,并在SUPERB 語音翻譯(ST)任務中帶來重大改進。
FedX
論文鏈接:https://arxiv.org/abs/2207.09158
FedX是微軟和清華大學、韓國科學技術院合作推出的無監督聯邦學習框架。通過局部和全局知識提煉和對比學習,該算法從離散和異構的本地數據中無偏表示學習。此外,它是一種適應性強的算法,可用作聯合學習情境中各種現有自監督算法的附加模塊。
TriBYOL
論文鏈接:https://arxiv.org/pdf/2206.03012.pdf
日本北海道大學提出了TriBYOL,用于小批量的自監督表示學習。該模型下,研究人員不需要大批量的計算資源來學習良好的表示。這模型為三元組網絡結構,結合了三視圖損失,從而在多個數據集上提高了效率并優于幾種自監督算法。
ColloSSL
論文鏈接:https://arxiv.org/pdf/2202.00758.pdf
諾基亞貝爾實驗室的研究人員與佐治亞理工學院和劍橋大學合作開發了ColloSSL,這是一種用于人類活動識別的協作自我監督算法。
多個設備同時捕獲的未標記傳感器數據集可以被視為彼此的自然轉換,然后生成用于表示學習的信號。本文提出了三種方法——設備選擇、對比采樣和多視圖對比損失。
LoRot
論文鏈接:https://arxiv.org/pdf/2207.10023.pdf
成均館大學研究團隊提出了一個簡易的自監督輔助任務,該任務預測具有三個屬性的可定位旋轉(LoRot)以輔助監督目標。
該模型具有三大特點。第一,研究團隊引導模型學習豐富的特征。第二,分布式培訓在自監督轉變的同時不會發生明顯變化。第三,該模型輕量通用,對以前的技術具有很高的適配性。
TS2Vec
論文鏈接:https://arxiv.org/pdf/2106.10466.pdf
微軟和北京大學提出了一個通用學習框架TS2Vec,用于在任意語義級別中時間序列的表示學習。該模型在增強的上下文視圖中以分層技術執行對比學習,從而為各個時間戳提供強大的上下文表示。
結果顯示,與最先進的無監督時間序列表示學習相比,TS2Vec模型在性能上有顯著改進。
2022年,自監督學習和強化學習這兩個領域都有巨大的創新。雖然研究人員一直在爭論哪個更重要,但就像自監督學習大佬Yann LeCun說的那樣:「強化學習就像蛋糕上的櫻桃,監督學習是蛋糕上的糖衣,而自監督學習就是蛋糕本身。」
參考資料:
https://analyticsindiamag.com/top-10-self-supervised-learning-models-in-2022/