ECCV 2024｜跟蹤一切目標(biāo)！DINO-Tracker成為單目跟蹤里程碑

作者：阿豹 2024-07-18 10:37:34

人工智能智能汽車(chē)

本文的DINO-tracker框架能夠無(wú)視遮擋，實(shí)現(xiàn)對(duì)物體的長(zhǎng)距離跟蹤，突破了之前技術(shù)的局限，入選了ECCV24。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

論文地址：

https://dino-tracker.github.io/assets/dino_tracker.pdf

開(kāi)源地址：

https://dino-tracker.github.io/

01 問(wèn)題引入

近年來(lái)，在視頻中建立密集點(diǎn)對(duì)應(yīng)關(guān)系這一研究取得了巨大進(jìn)展。在短期的密集運(yùn)動(dòng)估計(jì)方面，比如光流估計(jì)，研究界的關(guān)注焦點(diǎn)是監(jiān)督學(xué)習(xí)——設(shè)計(jì)強(qiáng)大的前饋模型，并在各種合成數(shù)據(jù)集上進(jìn)行訓(xùn)練，利用精確的監(jiān)督信息。最近，這一趨勢(shì)擴(kuò)展到了視頻中的長(zhǎng)期點(diǎn)跟蹤領(lǐng)域。隨著新架構(gòu)（如Transformers）和提供長(zhǎng)期軌跡監(jiān)督的新合成數(shù)據(jù)集的出現(xiàn)，各種監(jiān)督跟蹤器被開(kāi)發(fā)出來(lái)，展示了令人印象深刻的成果。

然而，精準(zhǔn)的跟蹤視頻中每一個(gè)運(yùn)動(dòng)點(diǎn)對(duì)此類(lèi)基于監(jiān)督學(xué)習(xí)的方法而言是一個(gè)極大的挑戰(zhàn)：

首先，用于點(diǎn)跟蹤的合成數(shù)據(jù)集通常包含在不現(xiàn)實(shí)配置中的移動(dòng)物體，相對(duì)于自然視頻中運(yùn)動(dòng)和物體的廣泛分布，這些數(shù)據(jù)集在多樣性和規(guī)模上受到限制；

此外，現(xiàn)有模型在跨越整個(gè)視頻時(shí)空范圍內(nèi)聚合信息的能力仍然有限——這一點(diǎn)在長(zhǎng)時(shí)間遮擋（例如在物體被遮擋之前和之后正確匹配一個(gè)點(diǎn)）中尤其重要。

為了應(yīng)對(duì)這些挑戰(zhàn)，Omnimotion（也就是23年的Tracking Everything）提出了一種測(cè)試的優(yōu)化框架，通過(guò)預(yù)計(jì)算的光流和視頻重建作為監(jiān)督，將跟蹤提升到3D層面。這種方法通過(guò)優(yōu)化給定測(cè)試視頻上的跟蹤器，本質(zhì)上一次性解決了所有視頻像素的運(yùn)動(dòng)問(wèn)題。然而，Omnimotion存在一個(gè)致命缺點(diǎn)：它嚴(yán)重依賴(lài)預(yù)計(jì)算的光流和單個(gè)視頻中的信息，沒(méi)有利用關(guān)于視覺(jué)世界的外部知識(shí)和先驗(yàn)。

在本文中，作者提出了一種新方法，訓(xùn)練與大量數(shù)據(jù)的學(xué)習(xí)結(jié)合起來(lái)，取長(zhǎng)補(bǔ)短，形成一個(gè)針對(duì)特定視頻特征提取匹配再到追蹤優(yōu)化框架，該框架結(jié)合由廣泛的無(wú)標(biāo)簽圖像訓(xùn)練的外部圖像模型學(xué)習(xí)到的強(qiáng)大特征表示。受到最近自監(jiān)督學(xué)習(xí)巨大進(jìn)展的啟發(fā)，作者的框架利用了預(yù)訓(xùn)練的DINOv2模型——一個(gè)使用大量自然圖像進(jìn)行預(yù)訓(xùn)練的視覺(jué)Transformers。DINO的特征提取已經(jīng)被證明能夠捕捉細(xì)粒度的語(yǔ)義信息，并被用于各種視覺(jué)任務(wù)，如分割和語(yǔ)義對(duì)應(yīng)。

本項(xiàng)工作是首次將基于DINO提取的特征用于密集跟蹤的研究。 作者展示了使用原始DINO特征匹配可以作為一個(gè)強(qiáng)大的跟蹤baseline，但這些特征本身不足以支持亞像素精度的跟蹤。因此，作者的框架同時(shí)調(diào)整DINO的特征以適應(yīng)測(cè)試視頻中的運(yùn)動(dòng)觀(guān)察，同時(shí)訓(xùn)練一個(gè)直接利用這些精煉特征的跟蹤器。為此，作者設(shè)計(jì)了一個(gè)新的目標(biāo)函數(shù)，通過(guò)在精煉特征空間中培養(yǎng)穩(wěn)健的語(yǔ)義特征級(jí)別對(duì)應(yīng)關(guān)系，超越了光流監(jiān)督實(shí)現(xiàn)的效果。

▲圖1｜效果演示??【深藍(lán)AI】編譯

本文的核心貢獻(xiàn)包括：

首次利用預(yù)訓(xùn)練的DINO特征進(jìn)行點(diǎn)跟蹤；
提出了第一個(gè)結(jié)合測(cè)試時(shí)訓(xùn)練和外部先驗(yàn)的跟蹤方法；
在長(zhǎng)時(shí)間，長(zhǎng)遮擋的跟蹤方面顯著提升了性能。

02 實(shí)現(xiàn)細(xì)節(jié)

▲圖2｜全文方法總覽??【深藍(lán)AI】編譯

結(jié)合圖2，可以理解全文方法的pipeline：

對(duì)于給定的輸入視頻序列，此方法的目標(biāo)是訓(xùn)練一個(gè)跟蹤器，該跟蹤器接受查詢(xún)點(diǎn)作為輸入，并輸出一組位置估計(jì)，這個(gè)過(guò)程很容易理解，就是特征提取+匹配+預(yù)測(cè)，但是這里的特征提取采用了預(yù)訓(xùn)練的 DINOv2-ViT 模型進(jìn)行特征提取。如果各位對(duì)DINO還不太了解，請(qǐng)?jiān)敿?xì)閱讀下面這段介紹——

我們可以將DINO(Distillation with No Labels)理解為一種無(wú)標(biāo)簽的學(xué)習(xí)訓(xùn)練方法，它廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域，尤其是在自監(jiān)督學(xué)習(xí)和特征表示學(xué)習(xí)中。DINO模型的一個(gè)顯著特點(diǎn)是利用Vision Transformer(ViT)架構(gòu)進(jìn)行訓(xùn)練，無(wú)需人工標(biāo)注數(shù)據(jù)，通過(guò)自監(jiān)督的方式學(xué)習(xí)圖像的語(yǔ)義特征，DINO有三個(gè)最顯著的特點(diǎn)：

●無(wú)需標(biāo)簽數(shù)據(jù)：通過(guò)自監(jiān)督學(xué)習(xí)方法，DINO 能夠有效減少對(duì)大量人工標(biāo)注數(shù)據(jù)的依賴(lài)，從而降低數(shù)據(jù)準(zhǔn)備的成本和時(shí)間；
●高質(zhì)量特征表示：由于使用了 Vision Transformer 和對(duì)比學(xué)習(xí)策略，DINO 可以學(xué)習(xí)到更加語(yǔ)義豐富和泛化能力強(qiáng)的特征表示；
●靈活適應(yīng)多種任務(wù)：DINO 所學(xué)習(xí)到的特征表示不僅適用于圖像分類(lèi)，還可以通過(guò)微調(diào)，適用于其他各種視覺(jué)任務(wù)，如目標(biāo)檢測(cè)和語(yǔ)義分割等。

DINO在本文中的應(yīng)用：DINO 的預(yù)訓(xùn)練特征為此方法的框架提供了初始的語(yǔ)義和局部表示，但缺乏準(zhǔn)確的長(zhǎng)時(shí)間跟蹤所需的時(shí)間一致性和細(xì)粒度定位。因此，此方法訓(xùn)練了 Delta-DINO，這是一種特征提取器，用于預(yù)測(cè)預(yù)訓(xùn)練 DINO 特征的殘差。
此方法的目標(biāo)是優(yōu)化這些特征，使它們可以作為“軌跡嵌入”，即沿著軌跡采樣的特征應(yīng)該收斂到一個(gè)獨(dú)特的表示，同時(shí)保留原始的 DINO 先驗(yàn)。這個(gè)過(guò)程實(shí)際上解決的是長(zhǎng)距離的跟蹤問(wèn)題，以往的方法往往不會(huì)對(duì)未來(lái)的位置進(jìn)行預(yù)測(cè)，而是直接對(duì)下一幀圖像中相同的特征點(diǎn)進(jìn)行匹配，這樣一旦遮擋物出現(xiàn)，特征點(diǎn)之間的匹配失敗，就會(huì)跟丟目標(biāo)，而此方法的預(yù)測(cè)能力，能夠在遮擋物出現(xiàn)的時(shí)候通過(guò)將預(yù)測(cè)的點(diǎn)進(jìn)行匹配，從而保證跟蹤的連續(xù)性。

2.1 跟蹤過(guò)程

DINO-Tracker的追蹤過(guò)程可以分為三個(gè)階段：特征提取+特征匹配+軌跡預(yù)測(cè)+全局一致優(yōu)化。

關(guān)于特征提取，前文已經(jīng)提到此方法主要采用預(yù)訓(xùn)練的DINO框架進(jìn)行特征點(diǎn)的提取，這一部分主要利用了DINO框架的靈活性和高質(zhì)量的特征表達(dá)，提取后的特征會(huì)形成一個(gè)特征圖，用于后續(xù)的特征匹配。

在特征匹配階段，比起傳統(tǒng)的在特征點(diǎn)圖中進(jìn)行對(duì)應(yīng)匹配，本文還提出了一個(gè)額外的匹配方式，就是用DINO提取的特征對(duì)應(yīng)關(guān)系用于補(bǔ)充訓(xùn)練數(shù)據(jù)，提供額外的監(jiān)督。通過(guò)識(shí)別“最佳配對(duì)點(diǎn)”提取可靠的匹配關(guān)系，其中每個(gè)點(diǎn)在一幀中的最近鄰匹配第二幀中的最近鄰。在訓(xùn)練期間，精煉特征改進(jìn)其表示并發(fā)現(xiàn)新的可靠對(duì)應(yīng)關(guān)系，形成持續(xù)更新的精煉最佳配對(duì)點(diǎn)集合，實(shí)現(xiàn)高質(zhì)量的特征點(diǎn)匹配，這樣得到的匹配關(guān)系更加精準(zhǔn)，也為后續(xù)的長(zhǎng)距離跟蹤和障礙物遮擋打下了基礎(chǔ)。

軌跡預(yù)測(cè)首先如前文所述，會(huì)訓(xùn)練一個(gè)Delta-DINO來(lái)進(jìn)行初步的新特征點(diǎn)預(yù)測(cè)，也就是預(yù)測(cè)下一幀中特征點(diǎn)可能出現(xiàn)的位置，然而這個(gè)預(yù)測(cè)往往會(huì)存在一定的誤差，此方法采自監(jiān)督優(yōu)化策略來(lái)優(yōu)化這個(gè)誤差。具體而言，就是使用從測(cè)試視頻自動(dòng)提取的監(jiān)督信號(hào)來(lái)匹配沿軌跡的預(yù)測(cè)點(diǎn)。這些信號(hào)來(lái)自光流和DINO特征的對(duì)應(yīng)關(guān)系。光流提供幀間精確的位移信息，通過(guò)鏈接這些位移創(chuàng)建短期軌跡。在預(yù)處理過(guò)程中，此方法通過(guò)計(jì)算出所有循環(huán)一致的光流對(duì)應(yīng)關(guān)系，為短軌跡提供高質(zhì)量的監(jiān)督。筆者通俗地總結(jié)一下，軌跡預(yù)測(cè)分為兩個(gè)階段，第一階段中采用Delta-DINO預(yù)測(cè)下一幀出現(xiàn)的特征點(diǎn)，在第二階段中采用光流法計(jì)算當(dāng)前特征點(diǎn)的位移信息，結(jié)合這個(gè)計(jì)算出來(lái)的位移信息以及預(yù)測(cè)得到的特征點(diǎn)信息進(jìn)行聯(lián)合優(yōu)化，最終確定預(yù)測(cè)的軌跡，實(shí)際上是一個(gè)“雙保險(xiǎn)”的過(guò)程，光流發(fā)充分利用了已知的信息，Delta-DINO則使用了預(yù)訓(xùn)練DINO模型的強(qiáng)大先驗(yàn)。

通過(guò)特征提取+特征匹配，DINO-Tracker實(shí)現(xiàn)了每一幀中特征點(diǎn)的準(zhǔn)確識(shí)別和配準(zhǔn)，通過(guò)特征匹配+軌跡預(yù)測(cè)，實(shí)現(xiàn)了這一幀和下一幀的特征點(diǎn)準(zhǔn)確跟蹤，這個(gè)過(guò)程不斷迭代，這就是DINO-Tracker能夠?qū)崿F(xiàn)長(zhǎng)距離跟蹤的核心。

2.2 遮擋處理

此方法還有一個(gè)很強(qiáng)的能力，就是對(duì)于遮擋的處理，圖3很好地說(shuō)明了DINO-Tracker是如何在遮擋物出現(xiàn)的時(shí)候仍然保持魯棒跟蹤的原理。要處理遮擋場(chǎng)景，首先要有能力判斷遮擋的出現(xiàn)，這一點(diǎn)在本文中通過(guò)測(cè)量軌跡位移差實(shí)現(xiàn)，如圖3所示，作者選擇K1和K2作為錨點(diǎn)，計(jì)算追蹤點(diǎn)X0是否存在遮擋關(guān)系，從圖中來(lái)看，X0處的軌跡和K1與K2處的軌跡有明顯的位移差異，當(dāng)這種位移差異出現(xiàn)的時(shí)候，就會(huì)判斷在X0處出現(xiàn)了遮擋。這個(gè)計(jì)算的原理十分簡(jiǎn)單，目的就是為了提升速度！

想必各位都能發(fā)現(xiàn)，本文并不是實(shí)時(shí)處理遮擋關(guān)系的，而是通過(guò)當(dāng)前幀與前兩幀來(lái)計(jì)算遮擋關(guān)系，如果判斷出現(xiàn)遮擋，就會(huì)及時(shí)優(yōu)化修正前一幀中錯(cuò)誤的追蹤，但是由于這樣的計(jì)算方式速度很快，這些都發(fā)生在電光火石之間，因此對(duì)于全局的追蹤速度沒(méi)有太大的影響。

當(dāng)遮擋關(guān)系被計(jì)算得到之后，軌跡的預(yù)測(cè)就會(huì)派上用場(chǎng)了，前文中我們提到了對(duì)于軌跡預(yù)測(cè)的“雙保險(xiǎn)”，即使用Delta-DINO預(yù)測(cè)下一幀的特征點(diǎn)位置+使用光流直接計(jì)算特征點(diǎn)位置共同進(jìn)行預(yù)測(cè)，然而遮擋的關(guān)系出現(xiàn)會(huì)導(dǎo)致光流法失效，因此這個(gè)時(shí)候會(huì)賦予Delta-DINO更多的權(quán)重，從而保持跟蹤，當(dāng)物體穿過(guò)遮擋物之后，光流又會(huì)繼續(xù)上線(xiàn)，幫助修正全局的跟蹤軌跡，通過(guò)這個(gè)過(guò)程實(shí)現(xiàn)了對(duì)于遮擋關(guān)系的處理。

很多人對(duì)此都會(huì)產(chǎn)生一個(gè)疑問(wèn)：

如果遮擋關(guān)系出現(xiàn)得太久，一直依靠Delta-DINO的預(yù)測(cè)，是否會(huì)出現(xiàn)軌跡上的偏差？

答案是：一定會(huì)出現(xiàn)的。

在“透視”技術(shù)被研究出來(lái)之前，理論上來(lái)說(shuō)沒(méi)有太好的方法能夠處理長(zhǎng)時(shí)間的遮擋關(guān)系，但本文方法對(duì)于短時(shí)間能出現(xiàn)的遮擋關(guān)系的處理，已經(jīng)堪稱(chēng)“完美”，能夠應(yīng)對(duì)大多數(shù)場(chǎng)景了！

▲圖3｜遮擋處理示意圖??【深藍(lán)AI】編譯

03 實(shí)驗(yàn)效果

作者通過(guò)數(shù)值實(shí)驗(yàn)和可視化實(shí)驗(yàn)證明了本文方法的有效性，首先來(lái)看數(shù)值實(shí)驗(yàn)。

▲圖4｜數(shù)值實(shí)驗(yàn)結(jié)果??【深藍(lán)AI】編譯

從圖4中可以看到，作者在大部分的數(shù)據(jù)集中都超過(guò)了SOTA方法，并且這些SOTA方法大部分都不具備對(duì)于遮擋關(guān)系的處理能力。讀者可能會(huì)覺(jué)得似乎作者的指標(biāo)沒(méi)有超出SOTA方法太多，我們需要注意的是，這里計(jì)算的是像素之間的距離，而由于投影關(guān)系，像素上個(gè)位數(shù)的差異經(jīng)過(guò)投影變換到真實(shí)世界中，往往就會(huì)被放大到幾米甚至十幾米（根據(jù)不同的投影尺度），因此在這個(gè)領(lǐng)域，即便是很小的數(shù)值增長(zhǎng)，也是很大的提升。

接下來(lái)是可視化實(shí)驗(yàn)，這里作者主要體現(xiàn)了本文方法對(duì)于遮擋和長(zhǎng)距離跟蹤的能力。

▲圖5｜可視化對(duì)比實(shí)驗(yàn)??【深藍(lán)AI】編譯

從實(shí)驗(yàn)結(jié)果上來(lái)看，本文方法在遮擋出現(xiàn)的時(shí)候依舊能夠?qū)崿F(xiàn)魯棒的跟蹤，而對(duì)比方法基本上都會(huì)出現(xiàn)跟丟或者跟蹤出錯(cuò)的問(wèn)題（從圖5左圖看出），圖五的右圖主要體現(xiàn)的是長(zhǎng)距離跟蹤，圖中的自行車(chē)選手在公路上“飆車(chē)”，速度很快，對(duì)比方法出現(xiàn)了不同程度的跟丟情況，而本文方法則死死“咬住”了目標(biāo)，由此體現(xiàn)出本文方法的高性能。

▲圖6｜DINO特征點(diǎn)選取可視化??【深藍(lán)AI】編譯

圖6則可以看到DINO特征點(diǎn)提取的優(yōu)勢(shì)，可以從圖中看到DINO提取的特征點(diǎn)十分均勻地分布在跟蹤物體的各個(gè)關(guān)鍵運(yùn)動(dòng)位置（關(guān)節(jié)，輪廓邊緣）這些部分是物體運(yùn)動(dòng)的重要追蹤位置，而其他對(duì)比方法則無(wú)法實(shí)現(xiàn)對(duì)這些關(guān)鍵位置的特征提取和魯棒的追蹤。

04 總結(jié)

本文提出了DINO-Tracker的追蹤框架，能夠很好地處理追蹤過(guò)程中出現(xiàn)的遮擋關(guān)系以及長(zhǎng)距離的匯總問(wèn)題。通過(guò)利用DINO模型強(qiáng)大的先驗(yàn)知識(shí)，實(shí)現(xiàn)了對(duì)于任意物體的魯棒追蹤。DINO-Tracker不僅在短期內(nèi)表現(xiàn)出色，還能在較長(zhǎng)時(shí)間跨度內(nèi)保持高精度的追蹤能力，這主要得益于其特征點(diǎn)軌跡預(yù)測(cè)方法能夠很好地忽略短時(shí)間內(nèi)的遮擋，解決了追蹤任務(wù)中的一個(gè)關(guān)鍵難題。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心