ECCV 2024|跟蹤一切目標(biāo)!DINO-Tracker成為單目跟蹤里程碑
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
論文地址:
https://dino-tracker.github.io/assets/dino_tracker.pdf
開(kāi)源地址:
https://dino-tracker.github.io/
01 問(wèn)題引入
近年來(lái),在視頻中建立密集點(diǎn)對(duì)應(yīng)關(guān)系這一研究取得了巨大進(jìn)展。在短期的密集運(yùn)動(dòng)估計(jì)方面,比如光流估計(jì),研究界的關(guān)注焦點(diǎn)是監(jiān)督學(xué)習(xí)——設(shè)計(jì)強(qiáng)大的前饋模型,并在各種合成數(shù)據(jù)集上進(jìn)行訓(xùn)練,利用精確的監(jiān)督信息。最近,這一趨勢(shì)擴(kuò)展到了視頻中的長(zhǎng)期點(diǎn)跟蹤領(lǐng)域。隨著新架構(gòu)(如Transformers)和提供長(zhǎng)期軌跡監(jiān)督的新合成數(shù)據(jù)集的出現(xiàn),各種監(jiān)督跟蹤器被開(kāi)發(fā)出來(lái),展示了令人印象深刻的成果。
然而,精準(zhǔn)的跟蹤視頻中每一個(gè)運(yùn)動(dòng)點(diǎn)對(duì)此類(lèi)基于監(jiān)督學(xué)習(xí)的方法而言是一個(gè)極大的挑戰(zhàn):
首先,用于點(diǎn)跟蹤的合成數(shù)據(jù)集通常包含在不現(xiàn)實(shí)配置中的移動(dòng)物體,相對(duì)于自然視頻中運(yùn)動(dòng)和物體的廣泛分布,這些數(shù)據(jù)集在多樣性和規(guī)模上受到限制;
此外,現(xiàn)有模型在跨越整個(gè)視頻時(shí)空范圍內(nèi)聚合信息的能力仍然有限——這一點(diǎn)在長(zhǎng)時(shí)間遮擋(例如在物體被遮擋之前和之后正確匹配一個(gè)點(diǎn))中尤其重要。
為了應(yīng)對(duì)這些挑戰(zhàn),Omnimotion(也就是23年的Tracking Everything)提出了一種測(cè)試的優(yōu)化框架,通過(guò)預(yù)計(jì)算的光流和視頻重建作為監(jiān)督,將跟蹤提升到3D層面。這種方法通過(guò)優(yōu)化給定測(cè)試視頻上的跟蹤器,本質(zhì)上一次性解決了所有視頻像素的運(yùn)動(dòng)問(wèn)題。然而,Omnimotion存在一個(gè)致命缺點(diǎn):它嚴(yán)重依賴(lài)預(yù)計(jì)算的光流和單個(gè)視頻中的信息,沒(méi)有利用關(guān)于視覺(jué)世界的外部知識(shí)和先驗(yàn)。
在本文中,作者提出了一種新方法,訓(xùn)練與大量數(shù)據(jù)的學(xué)習(xí)結(jié)合起來(lái),取長(zhǎng)補(bǔ)短,形成一個(gè)針對(duì)特定視頻特征提取匹配再到追蹤優(yōu)化框架,該框架結(jié)合由廣泛的無(wú)標(biāo)簽圖像訓(xùn)練的外部圖像模型學(xué)習(xí)到的強(qiáng)大特征表示。受到最近自監(jiān)督學(xué)習(xí)巨大進(jìn)展的啟發(fā),作者的框架利用了預(yù)訓(xùn)練的DINOv2模型——一個(gè)使用大量自然圖像進(jìn)行預(yù)訓(xùn)練的視覺(jué)Transformers。DINO的特征提取已經(jīng)被證明能夠捕捉細(xì)粒度的語(yǔ)義信息,并被用于各種視覺(jué)任務(wù),如分割和語(yǔ)義對(duì)應(yīng)。
本項(xiàng)工作是首次將基于DINO提取的特征用于密集跟蹤的研究。 作者展示了使用原始DINO特征匹配可以作為一個(gè)強(qiáng)大的跟蹤baseline,但這些特征本身不足以支持亞像素精度的跟蹤。因此,作者的框架同時(shí)調(diào)整DINO的特征以適應(yīng)測(cè)試視頻中的運(yùn)動(dòng)觀(guān)察,同時(shí)訓(xùn)練一個(gè)直接利用這些精煉特征的跟蹤器。為此,作者設(shè)計(jì)了一個(gè)新的目標(biāo)函數(shù),通過(guò)在精煉特征空間中培養(yǎng)穩(wěn)健的語(yǔ)義特征級(jí)別對(duì)應(yīng)關(guān)系,超越了光流監(jiān)督實(shí)現(xiàn)的效果。
▲圖1|效果演示??【深藍(lán)AI】編譯
本文的核心貢獻(xiàn)包括:
首次利用預(yù)訓(xùn)練的DINO特征進(jìn)行點(diǎn)跟蹤;
提出了第一個(gè)結(jié)合測(cè)試時(shí)訓(xùn)練和外部先驗(yàn)的跟蹤方法;
在長(zhǎng)時(shí)間,長(zhǎng)遮擋的跟蹤方面顯著提升了性能。
02 實(shí)現(xiàn)細(xì)節(jié)
▲圖2|全文方法總覽??【深藍(lán)AI】編譯
結(jié)合圖2,可以理解全文方法的pipeline:
對(duì)于給定的輸入視頻序列,此方法的目標(biāo)是訓(xùn)練一個(gè)跟蹤器 ,該跟蹤器接受查詢(xún)點(diǎn)作為輸入,并輸出一組位置估計(jì),這個(gè)過(guò)程很容易理解,就是特征提取+匹配+預(yù)測(cè),但是這里的特征提取采用了預(yù)訓(xùn)練的 DINOv2-ViT 模型進(jìn)行特征提取。如果各位對(duì)DINO還不太了解,請(qǐng)?jiān)敿?xì)閱讀下面這段介紹——
我們可以將DINO(Distillation with No Labels)理解為一種無(wú)標(biāo)簽的學(xué)習(xí)訓(xùn)練方法,它廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,尤其是在自監(jiān)督學(xué)習(xí)和特征表示學(xué)習(xí)中。DINO模型的一個(gè)顯著特點(diǎn)是利用Vision Transformer(ViT)架構(gòu)進(jìn)行訓(xùn)練,無(wú)需人工標(biāo)注數(shù)據(jù),通過(guò)自監(jiān)督的方式學(xué)習(xí)圖像的語(yǔ)義特征,DINO有三個(gè)最顯著的特點(diǎn):
●無(wú)需標(biāo)簽數(shù)據(jù):通過(guò)自監(jiān)督學(xué)習(xí)方法,DINO 能夠有效減少對(duì)大量人工標(biāo)注數(shù)據(jù)的依賴(lài),從而降低數(shù)據(jù)準(zhǔn)備的成本和時(shí)間;
●高質(zhì)量特征表示:由于使用了 Vision Transformer 和對(duì)比學(xué)習(xí)策略,DINO 可以學(xué)習(xí)到更加語(yǔ)義豐富和泛化能力強(qiáng)的特征表示;
●靈活適應(yīng)多種任務(wù):DINO 所學(xué)習(xí)到的特征表示不僅適用于圖像分類(lèi),還可以通過(guò)微調(diào),適用于其他各種視覺(jué)任務(wù),如目標(biāo)檢測(cè)和語(yǔ)義分割等。
DINO在本文中的應(yīng)用:DINO 的預(yù)訓(xùn)練特征為此方法的框架提供了初始的語(yǔ)義和局部表示,但缺乏準(zhǔn)確的長(zhǎng)時(shí)間跟蹤所需的時(shí)間一致性和細(xì)粒度定位。因此,此方法訓(xùn)練了 Delta-DINO,這是一種特征提取器,用于預(yù)測(cè)預(yù)訓(xùn)練 DINO 特征的殘差。
此方法的目標(biāo)是優(yōu)化這些特征,使它們可以作為“軌跡嵌入”,即沿著軌跡采樣的特征應(yīng)該收斂到一個(gè)獨(dú)特的表示,同時(shí)保留原始的 DINO 先驗(yàn)。這個(gè)過(guò)程實(shí)際上解決的是長(zhǎng)距離的跟蹤問(wèn)題,以往的方法往往不會(huì)對(duì)未來(lái)的位置進(jìn)行預(yù)測(cè),而是直接對(duì)下一幀圖像中相同的特征點(diǎn)進(jìn)行匹配,這樣一旦遮擋物出現(xiàn),特征點(diǎn)之間的匹配失敗,就會(huì)跟丟目標(biāo),而此方法的預(yù)測(cè)能力,能夠在遮擋物出現(xiàn)的時(shí)候通過(guò)將預(yù)測(cè)的點(diǎn)進(jìn)行匹配,從而保證跟蹤的連續(xù)性。
2.1 跟蹤過(guò)程
DINO-Tracker的追蹤過(guò)程可以分為三個(gè)階段:特征提取+特征匹配+軌跡預(yù)測(cè)+全局一致優(yōu)化。
關(guān)于特征提取,前文已經(jīng)提到此方法主要采用預(yù)訓(xùn)練的DINO框架進(jìn)行特征點(diǎn)的提取,這一部分主要利用了DINO框架的靈活性和高質(zhì)量的特征表達(dá),提取后的特征會(huì)形成一個(gè)特征圖,用于后續(xù)的特征匹配。
在特征匹配階段,比起傳統(tǒng)的在特征點(diǎn)圖中進(jìn)行對(duì)應(yīng)匹配,本文還提出了一個(gè)額外的匹配方式,就是用DINO提取的特征對(duì)應(yīng)關(guān)系用于補(bǔ)充訓(xùn)練數(shù)據(jù),提供額外的監(jiān)督。通過(guò)識(shí)別“最佳配對(duì)點(diǎn)”提取可靠的匹配關(guān)系,其中每個(gè)點(diǎn)在一幀中的最近鄰匹配第二幀中的最近鄰。在訓(xùn)練期間,精煉特征改進(jìn)其表示并發(fā)現(xiàn)新的可靠對(duì)應(yīng)關(guān)系,形成持續(xù)更新的精煉最佳配對(duì)點(diǎn)集合,實(shí)現(xiàn)高質(zhì)量的特征點(diǎn)匹配,這樣得到的匹配關(guān)系更加精準(zhǔn),也為后續(xù)的長(zhǎng)距離跟蹤和障礙物遮擋打下了基礎(chǔ)。
軌跡預(yù)測(cè)首先如前文所述,會(huì)訓(xùn)練一個(gè)Delta-DINO來(lái)進(jìn)行初步的新特征點(diǎn)預(yù)測(cè),也就是預(yù)測(cè)下一幀中特征點(diǎn)可能出現(xiàn)的位置,然而這個(gè)預(yù)測(cè)往往會(huì)存在一定的誤差,此方法采自監(jiān)督優(yōu)化策略來(lái)優(yōu)化這個(gè)誤差。具體而言,就是使用從測(cè)試視頻自動(dòng)提取的監(jiān)督信號(hào)來(lái)匹配沿軌跡的預(yù)測(cè)點(diǎn)。這些信號(hào)來(lái)自光流和DINO特征的對(duì)應(yīng)關(guān)系。光流提供幀間精確的位移信息,通過(guò)鏈接這些位移創(chuàng)建短期軌跡。在預(yù)處理過(guò)程中,此方法通過(guò)計(jì)算出所有循環(huán)一致的光流對(duì)應(yīng)關(guān)系,為短軌跡提供高質(zhì)量的監(jiān)督。筆者通俗地總結(jié)一下,軌跡預(yù)測(cè)分為兩個(gè)階段,第一階段中采用Delta-DINO預(yù)測(cè)下一幀出現(xiàn)的特征點(diǎn),在第二階段中采用光流法計(jì)算當(dāng)前特征點(diǎn)的位移信息,結(jié)合這個(gè)計(jì)算出來(lái)的位移信息以及預(yù)測(cè)得到的特征點(diǎn)信息進(jìn)行聯(lián)合優(yōu)化,最終確定預(yù)測(cè)的軌跡,實(shí)際上是一個(gè)“雙保險(xiǎn)”的過(guò)程,光流發(fā)充分利用了已知的信息,Delta-DINO則使用了預(yù)訓(xùn)練DINO模型的強(qiáng)大先驗(yàn)。
通過(guò)特征提取+特征匹配,DINO-Tracker實(shí)現(xiàn)了每一幀中特征點(diǎn)的準(zhǔn)確識(shí)別和配準(zhǔn),通過(guò)特征匹配+軌跡預(yù)測(cè),實(shí)現(xiàn)了這一幀和下一幀的特征點(diǎn)準(zhǔn)確跟蹤,這個(gè)過(guò)程不斷迭代,這就是DINO-Tracker能夠?qū)崿F(xiàn)長(zhǎng)距離跟蹤的核心。
2.2 遮擋處理
此方法還有一個(gè)很強(qiáng)的能力,就是對(duì)于遮擋的處理,圖3很好地說(shuō)明了DINO-Tracker是如何在遮擋物出現(xiàn)的時(shí)候仍然保持魯棒跟蹤的原理。要處理遮擋場(chǎng)景,首先要有能力判斷遮擋的出現(xiàn),這一點(diǎn)在本文中通過(guò)測(cè)量軌跡位移差實(shí)現(xiàn),如圖3所示,作者選擇K1和K2作為錨點(diǎn),計(jì)算追蹤點(diǎn)X0是否存在遮擋關(guān)系,從圖中來(lái)看,X0處的軌跡和K1與K2處的軌跡有明顯的位移差異,當(dāng)這種位移差異出現(xiàn)的時(shí)候,就會(huì)判斷在X0處出現(xiàn)了遮擋。這個(gè)計(jì)算的原理十分簡(jiǎn)單,目的就是為了提升速度!
想必各位都能發(fā)現(xiàn),本文并不是實(shí)時(shí)處理遮擋關(guān)系的,而是通過(guò)當(dāng)前幀與前兩幀來(lái)計(jì)算遮擋關(guān)系,如果判斷出現(xiàn)遮擋,就會(huì)及時(shí)優(yōu)化修正前一幀中錯(cuò)誤的追蹤,但是由于這樣的計(jì)算方式速度很快,這些都發(fā)生在電光火石之間,因此對(duì)于全局的追蹤速度沒(méi)有太大的影響。
當(dāng)遮擋關(guān)系被計(jì)算得到之后,軌跡的預(yù)測(cè)就會(huì)派上用場(chǎng)了,前文中我們提到了對(duì)于軌跡預(yù)測(cè)的“雙保險(xiǎn)”,即使用Delta-DINO預(yù)測(cè)下一幀的特征點(diǎn)位置+使用光流直接計(jì)算特征點(diǎn)位置共同進(jìn)行預(yù)測(cè),然而遮擋的關(guān)系出現(xiàn)會(huì)導(dǎo)致光流法失效,因此這個(gè)時(shí)候會(huì)賦予Delta-DINO更多的權(quán)重,從而保持跟蹤,當(dāng)物體穿過(guò)遮擋物之后,光流又會(huì)繼續(xù)上線(xiàn),幫助修正全局的跟蹤軌跡,通過(guò)這個(gè)過(guò)程實(shí)現(xiàn)了對(duì)于遮擋關(guān)系的處理。
很多人對(duì)此都會(huì)產(chǎn)生一個(gè)疑問(wèn):
如果遮擋關(guān)系出現(xiàn)得太久,一直依靠Delta-DINO的預(yù)測(cè),是否會(huì)出現(xiàn)軌跡上的偏差?
答案是:一定會(huì)出現(xiàn)的。
在“透視”技術(shù)被研究出來(lái)之前,理論上來(lái)說(shuō)沒(méi)有太好的方法能夠處理長(zhǎng)時(shí)間的遮擋關(guān)系,但本文方法對(duì)于短時(shí)間能出現(xiàn)的遮擋關(guān)系的處理,已經(jīng)堪稱(chēng)“完美”,能夠應(yīng)對(duì)大多數(shù)場(chǎng)景了!
▲圖3|遮擋處理示意圖??【深藍(lán)AI】編譯
03 實(shí)驗(yàn)效果
作者通過(guò)數(shù)值實(shí)驗(yàn)和可視化實(shí)驗(yàn)證明了本文方法的有效性,首先來(lái)看數(shù)值實(shí)驗(yàn)。
▲圖4|數(shù)值實(shí)驗(yàn)結(jié)果??【深藍(lán)AI】編譯
從圖4中可以看到,作者在大部分的數(shù)據(jù)集中都超過(guò)了SOTA方法,并且這些SOTA方法大部分都不具備對(duì)于遮擋關(guān)系的處理能力。讀者可能會(huì)覺(jué)得似乎作者的指標(biāo)沒(méi)有超出SOTA方法太多,我們需要注意的是,這里計(jì)算的是像素之間的距離,而由于投影關(guān)系,像素上個(gè)位數(shù)的差異經(jīng)過(guò)投影變換到真實(shí)世界中,往往就會(huì)被放大到幾米甚至十幾米(根據(jù)不同的投影尺度),因此在這個(gè)領(lǐng)域,即便是很小的數(shù)值增長(zhǎng),也是很大的提升。
接下來(lái)是可視化實(shí)驗(yàn),這里作者主要體現(xiàn)了本文方法對(duì)于遮擋和長(zhǎng)距離跟蹤的能力。
▲圖5|可視化對(duì)比實(shí)驗(yàn)??【深藍(lán)AI】編譯
從實(shí)驗(yàn)結(jié)果上來(lái)看,本文方法在遮擋出現(xiàn)的時(shí)候依舊能夠?qū)崿F(xiàn)魯棒的跟蹤,而對(duì)比方法基本上都會(huì)出現(xiàn)跟丟或者跟蹤出錯(cuò)的問(wèn)題(從圖5左圖看出),圖五的右圖主要體現(xiàn)的是長(zhǎng)距離跟蹤,圖中的自行車(chē)選手在公路上“飆車(chē)”,速度很快,對(duì)比方法出現(xiàn)了不同程度的跟丟情況,而本文方法則死死“咬住”了目標(biāo),由此體現(xiàn)出本文方法的高性能。
▲圖6|DINO特征點(diǎn)選取可視化??【深藍(lán)AI】編譯
圖6則可以看到DINO特征點(diǎn)提取的優(yōu)勢(shì),可以從圖中看到DINO提取的特征點(diǎn)十分均勻地分布在跟蹤物體的各個(gè)關(guān)鍵運(yùn)動(dòng)位置(關(guān)節(jié),輪廓邊緣)這些部分是物體運(yùn)動(dòng)的重要追蹤位置,而其他對(duì)比方法則無(wú)法實(shí)現(xiàn)對(duì)這些關(guān)鍵位置的特征提取和魯棒的追蹤。
04 總結(jié)
本文提出了DINO-Tracker的追蹤框架,能夠很好地處理追蹤過(guò)程中出現(xiàn)的遮擋關(guān)系以及長(zhǎng)距離的匯總問(wèn)題。通過(guò)利用DINO模型強(qiáng)大的先驗(yàn)知識(shí),實(shí)現(xiàn)了對(duì)于任意物體的魯棒追蹤。DINO-Tracker不僅在短期內(nèi)表現(xiàn)出色,還能在較長(zhǎng)時(shí)間跨度內(nèi)保持高精度的追蹤能力,這主要得益于其特征點(diǎn)軌跡預(yù)測(cè)方法能夠很好地忽略短時(shí)間內(nèi)的遮擋,解決了追蹤任務(wù)中的一個(gè)關(guān)鍵難題。