前沿自監(jiān)督學(xué)習(xí)(SSL)技術(shù)全解析
譯文譯者 | 晶顏
審校 | 重樓
自監(jiān)督學(xué)習(xí)(SSL)技術(shù)(如AMDIM與SimCLR)可借助未標(biāo)記數(shù)據(jù)實(shí)現(xiàn)穩(wěn)健的目標(biāo)跟蹤,在降低成本、提升可擴(kuò)展性與準(zhǔn)確性方面具有顯著優(yōu)勢(shì)。
視覺(jué)跟蹤系統(tǒng)在監(jiān)視、自主導(dǎo)航等多領(lǐng)域應(yīng)用中至關(guān)重要,但其核心痛點(diǎn)在于高度依賴大規(guī)模標(biāo)記數(shù)據(jù)集進(jìn)行訓(xùn)練。這種依賴導(dǎo)致在標(biāo)記數(shù)據(jù)稀缺或獲取成本高昂的實(shí)際場(chǎng)景中,系統(tǒng)部署面臨顯著挑戰(zhàn)。本文將系統(tǒng)闡釋自監(jiān)督學(xué)習(xí)(SSL)及其利用未標(biāo)記數(shù)據(jù)訓(xùn)練模型的機(jī)制。
問(wèn)題剖析
視覺(jué)跟蹤的核心任務(wù)是識(shí)別并跟蹤視頻中跨幀的目標(biāo)。傳統(tǒng)的方法依賴于大量的標(biāo)記數(shù)據(jù)來(lái)學(xué)習(xí)如何準(zhǔn)確地識(shí)別和跟蹤目標(biāo)。這種依賴帶來(lái)了以下幾個(gè)問(wèn)題:
- 高成本性:標(biāo)記數(shù)據(jù)需耗費(fèi)大量時(shí)間與資源(Wu & Huang, 2000)。
- 可擴(kuò)展性瓶頸:當(dāng)環(huán)境或目標(biāo)發(fā)生變化時(shí),模型需持續(xù)利用新標(biāo)記數(shù)據(jù)進(jìn)行再訓(xùn)練。
- 有限的適用性:在動(dòng)態(tài)真實(shí)環(huán)境中,收集完備的標(biāo)記數(shù)據(jù)集通常是不切實(shí)際的。
以監(jiān)控系統(tǒng)跟蹤不同場(chǎng)景下的人員為例:每個(gè)位置都有不同的光照、角度和障礙物,因此幾乎不可能有一個(gè)“放之四海而皆準(zhǔn)”的標(biāo)記數(shù)據(jù)集。此外,隨著環(huán)境的變化(如新增家具、晝夜光照差異),系統(tǒng)性能也會(huì)下降,需要更多的標(biāo)記數(shù)據(jù)來(lái)重新訓(xùn)練模型。
自監(jiān)督學(xué)習(xí)(SSL)技術(shù)方案
為了克服這些挑戰(zhàn),我們將探索自監(jiān)督學(xué)習(xí)(SSL)技術(shù)。SSL技術(shù)通過(guò)數(shù)據(jù)自身生成監(jiān)督信號(hào),顯著降低對(duì)標(biāo)記數(shù)據(jù)的依賴。下面是一些前沿SSL策略:
AMDIM
AMDIM(增強(qiáng)多尺度深度信息最大化)在DIM技術(shù)基礎(chǔ)上,通過(guò)最大化局部與全局互信息優(yōu)化特征提取。其核心邏輯是對(duì)比同一圖像的兩個(gè)不同版本,將圖像轉(zhuǎn)換為分割為局部補(bǔ)丁的特征向量,確保特征在各類(lèi)變換下的穩(wěn)健性。
圖1:AMDIM概述圖
工作機(jī)制
- 數(shù)據(jù)增強(qiáng):應(yīng)用健壯的數(shù)據(jù)增強(qiáng)管道,包括隨機(jī)縮放裁剪、顏色抖動(dòng)、灰度轉(zhuǎn)換、水平翻轉(zhuǎn)及標(biāo)準(zhǔn)化。
- 特征提取:利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將圖像轉(zhuǎn)換為特征向量,并分割為局部補(bǔ)丁。
- 互信息最大化:對(duì)比同一圖像的兩個(gè)增強(qiáng)版本,以最大化中間特征的局部與全局互信息。
問(wèn)題解決方案
AMDIM通過(guò)穩(wěn)健的數(shù)據(jù)增強(qiáng)、特征提取和互信息最大化來(lái)解決視覺(jué)跟蹤問(wèn)題。通過(guò)應(yīng)用不同的轉(zhuǎn)換,AMDIM可以處理光照、角度和障礙物的變化,使模型適應(yīng)不同的監(jiān)視位置,而不需要大量的標(biāo)記數(shù)據(jù);基于CNN的特征提取允許模型從圖像中學(xué)習(xí)復(fù)雜的模式和特征,并將它們分割成局部補(bǔ)丁,確保捕獲甚至精細(xì)的細(xì)節(jié),提高跟蹤精度;通過(guò)比較增強(qiáng)版本和最大化互信息,模型學(xué)習(xí)一致且穩(wěn)健的特征表示,這有助于在環(huán)境變化的情況下保持跟蹤性能。
實(shí)驗(yàn)與結(jié)果
實(shí)驗(yàn)中,AMDIM利用未標(biāo)記的圖像數(shù)據(jù)集進(jìn)行訓(xùn)練。數(shù)據(jù)增強(qiáng)管道應(yīng)用了各種轉(zhuǎn)換,以確保特征提取的多樣性和穩(wěn)健性。在光照與遮擋動(dòng)態(tài)變化的場(chǎng)景中,AMDIM實(shí)現(xiàn)了目標(biāo)跟蹤一致性精度的顯著提升,驗(yàn)證了其在真實(shí)場(chǎng)景中的適應(yīng)性。
SimCLR
SimCLR(視覺(jué)表征的簡(jiǎn)單對(duì)比學(xué)習(xí)框架)通過(guò)擴(kuò)大批處理規(guī)模并簡(jiǎn)化架構(gòu)需求,優(yōu)化自監(jiān)督學(xué)習(xí)流程。它對(duì)每張圖像應(yīng)用隨機(jī)變換生成兩個(gè)相關(guān)視圖(正對(duì)),驅(qū)動(dòng)模型學(xué)習(xí)將相似特征聚類(lèi)、不相似特征分離。SimCLR顯示了令人印象深刻的結(jié)果,減少了對(duì)標(biāo)記數(shù)據(jù)的依賴,同時(shí)保持了較高的準(zhǔn)確性。它的簡(jiǎn)單性和效率使其成為預(yù)算限制或基礎(chǔ)設(shè)施需求較簡(jiǎn)單的項(xiàng)目的可行選擇。
工作機(jī)制
- 數(shù)據(jù)增強(qiáng):對(duì)單張圖像應(yīng)用隨機(jī)變換,生成兩個(gè)相關(guān)視圖。
- 特征提取:借助ResNet編碼器從增強(qiáng)圖像中提取高維表示向量。
- 投影頭處理:通過(guò)投影頭對(duì)特征向量進(jìn)行處理,將其轉(zhuǎn)化為一個(gè)可以有效計(jì)算對(duì)比損失的空間。
- 對(duì)比損失優(yōu)化:利用對(duì)比損失函數(shù),最大化正對(duì)相似性并最小化負(fù)對(duì)相似性。
問(wèn)題解決方案
SimCLR通過(guò)穩(wěn)健的數(shù)據(jù)增強(qiáng)、特征提取和使用具有對(duì)比度損失的投影頭來(lái)解決視覺(jué)跟蹤問(wèn)題。通過(guò)應(yīng)用不同的隨機(jī)變換,SimCLR可以處理光照、角度和障礙物的變化,使模型適應(yīng)不同的監(jiān)視位置,而不需要大量的標(biāo)記數(shù)據(jù);ResNet編碼器允許模型從圖像中學(xué)習(xí)復(fù)雜的模式和特征,高維表示向量確保即使是細(xì)微的細(xì)節(jié)也能被捕獲,從而提高跟蹤精度;投影頭對(duì)特征向量進(jìn)行了細(xì)化,使其適合于對(duì)比學(xué)習(xí),對(duì)比損失函數(shù)保證了模型有效區(qū)分相似和不相似特征,提高了跟蹤性能。
圖2:少標(biāo)簽?zāi)P偷?/span>ImageNet精度
實(shí)驗(yàn)與結(jié)果
SimCLR在批處理規(guī)模為1024的未標(biāo)記數(shù)據(jù)集上開(kāi)展訓(xùn)練,通過(guò)隨機(jī)數(shù)據(jù)增強(qiáng)模塊對(duì)單張圖像實(shí)施隨機(jī)變換,生成兩個(gè)相關(guān)視圖。這些視圖經(jīng)編碼器與投影頭處理后,借助對(duì)比損失函數(shù)優(yōu)化特征表示。實(shí)驗(yàn)數(shù)據(jù)表明,相較于基線方法,SimCLR的跟蹤精度提升12%,對(duì)標(biāo)記數(shù)據(jù)的依賴程度顯著降低(Chen et al., 2020)。
BYOL
BYOL (潛在空間自舉)采用雙網(wǎng)絡(luò)動(dòng)態(tài)交互架構(gòu):在線網(wǎng)絡(luò)負(fù)責(zé)預(yù)測(cè)目標(biāo)網(wǎng)絡(luò)在不同失真條件下對(duì)同一圖像的特征表示。與其他方法不同,BYOL的核心優(yōu)勢(shì)在于摒棄傳統(tǒng)對(duì)比學(xué)習(xí)對(duì)負(fù)樣本的依賴,通過(guò)消除負(fù)例采樣流程簡(jiǎn)化學(xué)習(xí)機(jī)制,規(guī)避潛在偏差問(wèn)題,與AMDIM等方法形成技術(shù)區(qū)分。
圖3:BYOL概述圖
工作機(jī)制
- 雙網(wǎng)絡(luò)協(xié)同:構(gòu)建在線網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的動(dòng)態(tài)交互體系。
- 數(shù)據(jù)增強(qiáng)策略:對(duì)單張圖像應(yīng)用兩組不同隨機(jī)增強(qiáng),生成變體樣本。
- 預(yù)測(cè)與參數(shù)更新:訓(xùn)練在線網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)網(wǎng)絡(luò)的特征表示,通過(guò)在線網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)權(quán)值的加權(quán)平均實(shí)現(xiàn)周期性參數(shù)更新。
問(wèn)題解決方案
BYOL通過(guò)穩(wěn)健的數(shù)據(jù)增強(qiáng)、雙網(wǎng)絡(luò)架構(gòu)和預(yù)測(cè)更新機(jī)制解決了視覺(jué)跟蹤問(wèn)題。通過(guò)應(yīng)用不同的隨機(jī)增強(qiáng),BYOL可以處理光照、角度和障礙物的變化,使模型適應(yīng)不同的監(jiān)視位置,而不需要大量的標(biāo)記數(shù)據(jù);雙網(wǎng)絡(luò)設(shè)置允許模型在不依賴負(fù)樣本的情況下學(xué)習(xí)穩(wěn)健特征表示,減少潛在的偏差并簡(jiǎn)化學(xué)習(xí)過(guò)程;在線網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)網(wǎng)絡(luò)表示的能力確保了模型學(xué)習(xí)一致和不變的特征,而定期更新目標(biāo)網(wǎng)絡(luò)的權(quán)值有助于保持穩(wěn)定性并提高跟蹤性能。
圖4:在ImageNet上線性評(píng)估的Top-1和Top-5精度(單位:%)
實(shí)驗(yàn)與結(jié)果
BYOL在一個(gè)未標(biāo)記的數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集使用雙網(wǎng)絡(luò)處理同一圖像的不同增強(qiáng)。在線網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)網(wǎng)絡(luò)的表示,且目標(biāo)網(wǎng)絡(luò)的權(quán)值通過(guò)與在線網(wǎng)絡(luò)的權(quán)值平均來(lái)進(jìn)行周期性更新。BYOL在ImageNet基準(zhǔn)上達(dá)到了74.3%的準(zhǔn)確率,比其他自監(jiān)督方法高出1.3%。(Grill et al., 2020)
SwAV
SwAV(在視圖之間交換分配)使用基于聚類(lèi)的策略來(lái)學(xué)習(xí)健壯的視覺(jué)表示。它消除了對(duì)直接特征兩兩比較的需要,而是采用了一種增強(qiáng)可擴(kuò)展性和適應(yīng)性的在線聚類(lèi)分配技術(shù)。通過(guò)聚類(lèi)特性,SwAV可以處理各種各樣的轉(zhuǎn)換和規(guī)模,使其具有高度的適應(yīng)性。該方法允許模型從同一圖像的多個(gè)視圖中學(xué)習(xí),提高了特征表示的一致性和穩(wěn)健性。
圖5:SwaV概述圖
工作機(jī)制
- 聚類(lèi)驅(qū)動(dòng)學(xué)習(xí):利用在線聚類(lèi)分配優(yōu)化特征表示。
- 多尺度增強(qiáng):采用多裁剪策略生成同一圖像不同分辨率的視圖。
- 分配交換預(yù)測(cè):基于圖像多視圖預(yù)測(cè)彼此的表示編碼。
問(wèn)題解決方案
SwAV通過(guò)穩(wěn)健的數(shù)據(jù)增強(qiáng)、基于聚類(lèi)的方法和交換預(yù)測(cè)機(jī)制來(lái)解決視覺(jué)跟蹤問(wèn)題。通過(guò)應(yīng)用多作物策略,SwAV可以處理光照、角度和障礙物的變化,使模型適應(yīng)不同的監(jiān)視位置,而不需要大量的標(biāo)記數(shù)據(jù);基于聚類(lèi)的方法允許SwAV動(dòng)態(tài)地細(xì)化特征表示,增強(qiáng)其跨不同尺度和視角的泛化能力,從而提高模型在不同條件下跟蹤對(duì)象的穩(wěn)定性;交換預(yù)測(cè)機(jī)制確保模型從同一圖像的不同視圖中學(xué)習(xí)一致的特征表示,增強(qiáng)模型跨幀準(zhǔn)確跟蹤對(duì)象的能力,即使它們發(fā)生變換。
圖6:在SwaV和其他自監(jiān)督框架上的多作物改進(jìn)效果
實(shí)驗(yàn)與結(jié)果
SwAV的訓(xùn)練采用基于聚類(lèi)的方法,對(duì)每張圖像進(jìn)行多次裁剪。多作物策略產(chǎn)生了不同的視圖,增強(qiáng)了模型在不同尺度和視角上進(jìn)行概括的能力。在需要跟蹤不同尺度和視角的物體的場(chǎng)景中,SwAV表現(xiàn)出更強(qiáng)的適應(yīng)性,提高了跟蹤系統(tǒng)的穩(wěn)健性。(Caron et al., 2020)
CPC
CPC(對(duì)比預(yù)測(cè)編碼)側(cè)重于使用概率對(duì)比損失來(lái)預(yù)測(cè)未來(lái)的觀察結(jié)果。它將生成建模問(wèn)題轉(zhuǎn)化為分類(lèi)任務(wù),利用順序數(shù)據(jù)的結(jié)構(gòu)來(lái)改進(jìn)表示學(xué)習(xí)。該方法在處理序列關(guān)系識(shí)別與預(yù)測(cè)場(chǎng)景中具有顯著優(yōu)勢(shì),對(duì)編碼器選型具備靈活性,適配多領(lǐng)域應(yīng)用。
圖7:CPC方法概述圖
工作機(jī)制
- 序列數(shù)據(jù)增強(qiáng):對(duì)順序數(shù)據(jù)實(shí)施隨機(jī)變換,構(gòu)建正負(fù)樣本對(duì)。
- 特征提取網(wǎng)絡(luò):借助CNN從增強(qiáng)數(shù)據(jù)中提取時(shí)序特征。
- 對(duì)比損失優(yōu)化:通過(guò)對(duì)比損失函數(shù)強(qiáng)化正對(duì)相似性、抑制負(fù)對(duì)相似性。
問(wèn)題解決方案
CPC通過(guò)利用穩(wěn)健的數(shù)據(jù)增強(qiáng)、特征提取和對(duì)比損失優(yōu)化來(lái)解決視覺(jué)跟蹤問(wèn)題。通過(guò)對(duì)順序數(shù)據(jù)應(yīng)用不同的隨機(jī)變換,CPC可以處理光照、角度和障礙物的變化,使模型適應(yīng)不同的監(jiān)視位置,而不需要大量的標(biāo)記數(shù)據(jù);基于CNN的特征提取允許模型學(xué)習(xí)序列數(shù)據(jù)中復(fù)雜的模式和關(guān)系,增強(qiáng)其預(yù)測(cè)未來(lái)觀察和隨著時(shí)間準(zhǔn)確跟蹤對(duì)象的能力;對(duì)比損失函數(shù)保證了模型有效區(qū)分相似和不相似特征,提高了跟蹤性能。這種機(jī)制增強(qiáng)了跟蹤系統(tǒng)的預(yù)測(cè)能力,使其即使在動(dòng)態(tài)環(huán)境中也能保持精度。
實(shí)驗(yàn)與結(jié)果
CPC在序列數(shù)據(jù)集上開(kāi)展訓(xùn)練,通過(guò)隨機(jī)變換生成相似與不相似樣本對(duì),并借助CNN從增強(qiáng)數(shù)據(jù)中提取特征,利用對(duì)比損失函數(shù)優(yōu)化特征表示。在涉及對(duì)象時(shí)序跟蹤、未來(lái)狀態(tài)預(yù)測(cè)等應(yīng)用場(chǎng)景中,CPC能夠?qū)崿F(xiàn)高效的特征學(xué)習(xí),顯著增強(qiáng)跟蹤系統(tǒng)的預(yù)測(cè)能力(Oord et al., 2018)。
結(jié)語(yǔ)
自監(jiān)督學(xué)習(xí)(SSL)技術(shù)的集成應(yīng)用,為視覺(jué)跟蹤系統(tǒng)的革新提供了關(guān)鍵路徑。基于AMDIM、SimCLR、BYOL、SwAV及CPC等SSL方法構(gòu)建的系統(tǒng),具備以下顯著優(yōu)勢(shì):
- 成本優(yōu)化:大幅減少對(duì)大規(guī)模標(biāo)記數(shù)據(jù)集的依賴,有效降低數(shù)據(jù)標(biāo)注的時(shí)間與經(jīng)濟(jì)成本;
- 可擴(kuò)展性提升:通過(guò)自主學(xué)習(xí)機(jī)制適應(yīng)環(huán)境動(dòng)態(tài)變化,規(guī)避頻繁再訓(xùn)練需求;
- 性能強(qiáng)化:在復(fù)雜真實(shí)場(chǎng)景中維持高精度跟蹤表現(xiàn),突破傳統(tǒng)方法的應(yīng)用瓶頸。
像AMDIM、SimCLR、BYOL、SwAV和CPC這樣的自監(jiān)督學(xué)習(xí)技術(shù)正通過(guò)挖掘未標(biāo)記數(shù)據(jù)的價(jià)值,為視覺(jué)跟蹤領(lǐng)域提供了替代傳統(tǒng)方案的創(chuàng)新路徑,推動(dòng)系統(tǒng)向高穩(wěn)健性、強(qiáng)適應(yīng)性方向發(fā)展。未來(lái),SSL技術(shù)將持續(xù)賦能視覺(jué)跟蹤系統(tǒng),使其在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)更高效率、更低成本的智能化應(yīng)用。
參考文獻(xiàn)
- Wu, Y., & Huang, T. (2000). Self-Supervised Learning for Visual Tracking and Recognition of Human Hand. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 17).
- Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. In Proceedings of the International Conference on Machine Learning (pp. 1597–1607). PMLR
- Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., Doersch, C., Pires, B. A., Guo, Z. D., Azar, M. G., Piot, B., Kavukcuoglu, K., Munos, R., & Valko, M. (2020). Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning. In Advances in Neural Information Processing Systems (Vol. 33, pp. 21271–21284)
- Caron, M., Misra, I., Mairal, J., Goyal, P., Bojanowski, P., & Joulin, A. (2020). Unsupervised Learning of Visual Features by Contrasting Cluster Assignments. In Advances in Neural Information Processing Systems (Vol. 33, pp. 9912–9924)
- Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation Learning with Contrastive Predictive Coding. arXiv preprint arXiv:1807.03748.
原文標(biāo)題:Self-Supervised Learning Techniques,作者:Mostofa Shakib