成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ECCV 2024|跟蹤一切目標(biāo)!DINO-Tracker成為單目跟蹤里程碑

人工智能 智能汽車(chē)
本文的DINO-tracker框架能夠無(wú)視遮擋,實(shí)現(xiàn)對(duì)物體的長(zhǎng)距離跟蹤,突破了之前技術(shù)的局限,入選了ECCV24。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

圖片

論文地址:

https://dino-tracker.github.io/assets/dino_tracker.pdf

開(kāi)源地址:

https://dino-tracker.github.io/

01 問(wèn)題引入

近年來(lái),在視頻中建立密集點(diǎn)對(duì)應(yīng)關(guān)系這一研究取得了巨大進(jìn)展。在短期的密集運(yùn)動(dòng)估計(jì)方面,比如光流估計(jì),研究界的關(guān)注焦點(diǎn)是監(jiān)督學(xué)習(xí)——設(shè)計(jì)強(qiáng)大的前饋模型,并在各種合成數(shù)據(jù)集上進(jìn)行訓(xùn)練,利用精確的監(jiān)督信息。最近,這一趨勢(shì)擴(kuò)展到了視頻中的長(zhǎng)期點(diǎn)跟蹤領(lǐng)域。隨著新架構(gòu)(如Transformers)和提供長(zhǎng)期軌跡監(jiān)督的新合成數(shù)據(jù)集的出現(xiàn),各種監(jiān)督跟蹤器被開(kāi)發(fā)出來(lái),展示了令人印象深刻的成果。

然而,精準(zhǔn)的跟蹤視頻中每一個(gè)運(yùn)動(dòng)點(diǎn)對(duì)此類(lèi)基于監(jiān)督學(xué)習(xí)的方法而言是一個(gè)極大的挑戰(zhàn):

首先,用于點(diǎn)跟蹤的合成數(shù)據(jù)集通常包含在不現(xiàn)實(shí)配置中的移動(dòng)物體,相對(duì)于自然視頻中運(yùn)動(dòng)和物體的廣泛分布,這些數(shù)據(jù)集在多樣性和規(guī)模上受到限制;

此外,現(xiàn)有模型在跨越整個(gè)視頻時(shí)空范圍內(nèi)聚合信息的能力仍然有限——這一點(diǎn)在長(zhǎng)時(shí)間遮擋(例如在物體被遮擋之前和之后正確匹配一個(gè)點(diǎn))中尤其重要。

為了應(yīng)對(duì)這些挑戰(zhàn),Omnimotion(也就是23年的Tracking Everything)提出了一種測(cè)試的優(yōu)化框架,通過(guò)預(yù)計(jì)算的光流和視頻重建作為監(jiān)督,將跟蹤提升到3D層面。這種方法通過(guò)優(yōu)化給定測(cè)試視頻上的跟蹤器,本質(zhì)上一次性解決了所有視頻像素的運(yùn)動(dòng)問(wèn)題。然而,Omnimotion存在一個(gè)致命缺點(diǎn):它嚴(yán)重依賴(lài)預(yù)計(jì)算的光流和單個(gè)視頻中的信息,沒(méi)有利用關(guān)于視覺(jué)世界的外部知識(shí)和先驗(yàn)。

在本文中,作者提出了一種新方法,訓(xùn)練與大量數(shù)據(jù)的學(xué)習(xí)結(jié)合起來(lái),取長(zhǎng)補(bǔ)短,形成一個(gè)針對(duì)特定視頻特征提取匹配再到追蹤優(yōu)化框架,該框架結(jié)合由廣泛的無(wú)標(biāo)簽圖像訓(xùn)練的外部圖像模型學(xué)習(xí)到的強(qiáng)大特征表示。受到最近自監(jiān)督學(xué)習(xí)巨大進(jìn)展的啟發(fā),作者的框架利用了預(yù)訓(xùn)練的DINOv2模型——一個(gè)使用大量自然圖像進(jìn)行預(yù)訓(xùn)練的視覺(jué)Transformers。DINO的特征提取已經(jīng)被證明能夠捕捉細(xì)粒度的語(yǔ)義信息,并被用于各種視覺(jué)任務(wù),如分割和語(yǔ)義對(duì)應(yīng)。

本項(xiàng)工作是首次將基于DINO提取的特征用于密集跟蹤的研究。 作者展示了使用原始DINO特征匹配可以作為一個(gè)強(qiáng)大的跟蹤baseline,但這些特征本身不足以支持亞像素精度的跟蹤。因此,作者的框架同時(shí)調(diào)整DINO的特征以適應(yīng)測(cè)試視頻中的運(yùn)動(dòng)觀(guān)察,同時(shí)訓(xùn)練一個(gè)直接利用這些精煉特征的跟蹤器。為此,作者設(shè)計(jì)了一個(gè)新的目標(biāo)函數(shù),通過(guò)在精煉特征空間中培養(yǎng)穩(wěn)健的語(yǔ)義特征級(jí)別對(duì)應(yīng)關(guān)系,超越了光流監(jiān)督實(shí)現(xiàn)的效果。

▲圖1|效果演示??【深藍(lán)AI】編譯

本文的核心貢獻(xiàn)包括:

首次利用預(yù)訓(xùn)練的DINO特征進(jìn)行點(diǎn)跟蹤;
提出了第一個(gè)結(jié)合測(cè)試時(shí)訓(xùn)練和外部先驗(yàn)的跟蹤方法;
在長(zhǎng)時(shí)間,長(zhǎng)遮擋的跟蹤方面顯著提升了性能。

02 實(shí)現(xiàn)細(xì)節(jié)

▲圖2|全文方法總覽??【深藍(lán)AI】編譯

結(jié)合圖2,可以理解全文方法的pipeline:

對(duì)于給定的輸入視頻序列,此方法的目標(biāo)是訓(xùn)練一個(gè)跟蹤器 ,該跟蹤器接受查詢(xún)點(diǎn)作為輸入,并輸出一組位置估計(jì),這個(gè)過(guò)程很容易理解,就是特征提取+匹配+預(yù)測(cè),但是這里的特征提取采用了預(yù)訓(xùn)練的 DINOv2-ViT 模型進(jìn)行特征提取。如果各位對(duì)DINO還不太了解,請(qǐng)?jiān)敿?xì)閱讀下面這段介紹——

我們可以將DINO(Distillation with No Labels)理解為一種無(wú)標(biāo)簽的學(xué)習(xí)訓(xùn)練方法,它廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,尤其是在自監(jiān)督學(xué)習(xí)和特征表示學(xué)習(xí)中。DINO模型的一個(gè)顯著特點(diǎn)是利用Vision Transformer(ViT)架構(gòu)進(jìn)行訓(xùn)練,無(wú)需人工標(biāo)注數(shù)據(jù),通過(guò)自監(jiān)督的方式學(xué)習(xí)圖像的語(yǔ)義特征,DINO有三個(gè)最顯著的特點(diǎn):

●無(wú)需標(biāo)簽數(shù)據(jù):通過(guò)自監(jiān)督學(xué)習(xí)方法,DINO 能夠有效減少對(duì)大量人工標(biāo)注數(shù)據(jù)的依賴(lài),從而降低數(shù)據(jù)準(zhǔn)備的成本和時(shí)間;
●高質(zhì)量特征表示:由于使用了 Vision Transformer 和對(duì)比學(xué)習(xí)策略,DINO 可以學(xué)習(xí)到更加語(yǔ)義豐富和泛化能力強(qiáng)的特征表示;
●靈活適應(yīng)多種任務(wù):DINO 所學(xué)習(xí)到的特征表示不僅適用于圖像分類(lèi),還可以通過(guò)微調(diào),適用于其他各種視覺(jué)任務(wù),如目標(biāo)檢測(cè)和語(yǔ)義分割等。

DINO在本文中的應(yīng)用:DINO 的預(yù)訓(xùn)練特征為此方法的框架提供了初始的語(yǔ)義和局部表示,但缺乏準(zhǔn)確的長(zhǎng)時(shí)間跟蹤所需的時(shí)間一致性和細(xì)粒度定位。因此,此方法訓(xùn)練了 Delta-DINO,這是一種特征提取器,用于預(yù)測(cè)預(yù)訓(xùn)練 DINO 特征的殘差。
此方法的目標(biāo)是優(yōu)化這些特征,使它們可以作為“軌跡嵌入”,即沿著軌跡采樣的特征應(yīng)該收斂到一個(gè)獨(dú)特的表示,同時(shí)保留原始的 DINO 先驗(yàn)。這個(gè)過(guò)程實(shí)際上解決的是長(zhǎng)距離的跟蹤問(wèn)題,以往的方法往往不會(huì)對(duì)未來(lái)的位置進(jìn)行預(yù)測(cè),而是直接對(duì)下一幀圖像中相同的特征點(diǎn)進(jìn)行匹配,這樣一旦遮擋物出現(xiàn),特征點(diǎn)之間的匹配失敗,就會(huì)跟丟目標(biāo),而此方法的預(yù)測(cè)能力,能夠在遮擋物出現(xiàn)的時(shí)候通過(guò)將預(yù)測(cè)的點(diǎn)進(jìn)行匹配,從而保證跟蹤的連續(xù)性。

2.1 跟蹤過(guò)程

DINO-Tracker的追蹤過(guò)程可以分為三個(gè)階段:特征提取+特征匹配+軌跡預(yù)測(cè)+全局一致優(yōu)化。

關(guān)于特征提取,前文已經(jīng)提到此方法主要采用預(yù)訓(xùn)練的DINO框架進(jìn)行特征點(diǎn)的提取,這一部分主要利用了DINO框架的靈活性和高質(zhì)量的特征表達(dá),提取后的特征會(huì)形成一個(gè)特征圖,用于后續(xù)的特征匹配。

在特征匹配階段,比起傳統(tǒng)的在特征點(diǎn)圖中進(jìn)行對(duì)應(yīng)匹配,本文還提出了一個(gè)額外的匹配方式,就是用DINO提取的特征對(duì)應(yīng)關(guān)系用于補(bǔ)充訓(xùn)練數(shù)據(jù),提供額外的監(jiān)督。通過(guò)識(shí)別“最佳配對(duì)點(diǎn)”提取可靠的匹配關(guān)系,其中每個(gè)點(diǎn)在一幀中的最近鄰匹配第二幀中的最近鄰。在訓(xùn)練期間,精煉特征改進(jìn)其表示并發(fā)現(xiàn)新的可靠對(duì)應(yīng)關(guān)系,形成持續(xù)更新的精煉最佳配對(duì)點(diǎn)集合,實(shí)現(xiàn)高質(zhì)量的特征點(diǎn)匹配,這樣得到的匹配關(guān)系更加精準(zhǔn),也為后續(xù)的長(zhǎng)距離跟蹤和障礙物遮擋打下了基礎(chǔ)。

軌跡預(yù)測(cè)首先如前文所述,會(huì)訓(xùn)練一個(gè)Delta-DINO來(lái)進(jìn)行初步的新特征點(diǎn)預(yù)測(cè),也就是預(yù)測(cè)下一幀中特征點(diǎn)可能出現(xiàn)的位置,然而這個(gè)預(yù)測(cè)往往會(huì)存在一定的誤差,此方法采自監(jiān)督優(yōu)化策略來(lái)優(yōu)化這個(gè)誤差。具體而言,就是使用從測(cè)試視頻自動(dòng)提取的監(jiān)督信號(hào)來(lái)匹配沿軌跡的預(yù)測(cè)點(diǎn)。這些信號(hào)來(lái)自光流和DINO特征的對(duì)應(yīng)關(guān)系。光流提供幀間精確的位移信息,通過(guò)鏈接這些位移創(chuàng)建短期軌跡。在預(yù)處理過(guò)程中,此方法通過(guò)計(jì)算出所有循環(huán)一致的光流對(duì)應(yīng)關(guān)系,為短軌跡提供高質(zhì)量的監(jiān)督。筆者通俗地總結(jié)一下,軌跡預(yù)測(cè)分為兩個(gè)階段,第一階段中采用Delta-DINO預(yù)測(cè)下一幀出現(xiàn)的特征點(diǎn),在第二階段中采用光流法計(jì)算當(dāng)前特征點(diǎn)的位移信息,結(jié)合這個(gè)計(jì)算出來(lái)的位移信息以及預(yù)測(cè)得到的特征點(diǎn)信息進(jìn)行聯(lián)合優(yōu)化,最終確定預(yù)測(cè)的軌跡,實(shí)際上是一個(gè)“雙保險(xiǎn)”的過(guò)程,光流發(fā)充分利用了已知的信息,Delta-DINO則使用了預(yù)訓(xùn)練DINO模型的強(qiáng)大先驗(yàn)。

通過(guò)特征提取+特征匹配,DINO-Tracker實(shí)現(xiàn)了每一幀中特征點(diǎn)的準(zhǔn)確識(shí)別和配準(zhǔn),通過(guò)特征匹配+軌跡預(yù)測(cè),實(shí)現(xiàn)了這一幀和下一幀的特征點(diǎn)準(zhǔn)確跟蹤,這個(gè)過(guò)程不斷迭代,這就是DINO-Tracker能夠?qū)崿F(xiàn)長(zhǎng)距離跟蹤的核心。

2.2 遮擋處理

此方法還有一個(gè)很強(qiáng)的能力,就是對(duì)于遮擋的處理,圖3很好地說(shuō)明了DINO-Tracker是如何在遮擋物出現(xiàn)的時(shí)候仍然保持魯棒跟蹤的原理。要處理遮擋場(chǎng)景,首先要有能力判斷遮擋的出現(xiàn),這一點(diǎn)在本文中通過(guò)測(cè)量軌跡位移差實(shí)現(xiàn),如圖3所示,作者選擇K1和K2作為錨點(diǎn),計(jì)算追蹤點(diǎn)X0是否存在遮擋關(guān)系,從圖中來(lái)看,X0處的軌跡和K1與K2處的軌跡有明顯的位移差異,當(dāng)這種位移差異出現(xiàn)的時(shí)候,就會(huì)判斷在X0處出現(xiàn)了遮擋。這個(gè)計(jì)算的原理十分簡(jiǎn)單,目的就是為了提升速度!

想必各位都能發(fā)現(xiàn),本文并不是實(shí)時(shí)處理遮擋關(guān)系的,而是通過(guò)當(dāng)前幀與前兩幀來(lái)計(jì)算遮擋關(guān)系,如果判斷出現(xiàn)遮擋,就會(huì)及時(shí)優(yōu)化修正前一幀中錯(cuò)誤的追蹤,但是由于這樣的計(jì)算方式速度很快,這些都發(fā)生在電光火石之間,因此對(duì)于全局的追蹤速度沒(méi)有太大的影響。

當(dāng)遮擋關(guān)系被計(jì)算得到之后,軌跡的預(yù)測(cè)就會(huì)派上用場(chǎng)了,前文中我們提到了對(duì)于軌跡預(yù)測(cè)的“雙保險(xiǎn)”,即使用Delta-DINO預(yù)測(cè)下一幀的特征點(diǎn)位置+使用光流直接計(jì)算特征點(diǎn)位置共同進(jìn)行預(yù)測(cè),然而遮擋的關(guān)系出現(xiàn)會(huì)導(dǎo)致光流法失效,因此這個(gè)時(shí)候會(huì)賦予Delta-DINO更多的權(quán)重,從而保持跟蹤,當(dāng)物體穿過(guò)遮擋物之后,光流又會(huì)繼續(xù)上線(xiàn),幫助修正全局的跟蹤軌跡,通過(guò)這個(gè)過(guò)程實(shí)現(xiàn)了對(duì)于遮擋關(guān)系的處理。

很多人對(duì)此都會(huì)產(chǎn)生一個(gè)疑問(wèn):

如果遮擋關(guān)系出現(xiàn)得太久,一直依靠Delta-DINO的預(yù)測(cè),是否會(huì)出現(xiàn)軌跡上的偏差?

答案是:一定會(huì)出現(xiàn)的。

在“透視”技術(shù)被研究出來(lái)之前,理論上來(lái)說(shuō)沒(méi)有太好的方法能夠處理長(zhǎng)時(shí)間的遮擋關(guān)系,但本文方法對(duì)于短時(shí)間能出現(xiàn)的遮擋關(guān)系的處理,已經(jīng)堪稱(chēng)“完美”,能夠應(yīng)對(duì)大多數(shù)場(chǎng)景了!

▲圖3|遮擋處理示意圖??【深藍(lán)AI】編譯

03 實(shí)驗(yàn)效果

作者通過(guò)數(shù)值實(shí)驗(yàn)和可視化實(shí)驗(yàn)證明了本文方法的有效性,首先來(lái)看數(shù)值實(shí)驗(yàn)。

▲圖4|數(shù)值實(shí)驗(yàn)結(jié)果??【深藍(lán)AI】編譯

從圖4中可以看到,作者在大部分的數(shù)據(jù)集中都超過(guò)了SOTA方法,并且這些SOTA方法大部分都不具備對(duì)于遮擋關(guān)系的處理能力。讀者可能會(huì)覺(jué)得似乎作者的指標(biāo)沒(méi)有超出SOTA方法太多,我們需要注意的是,這里計(jì)算的是像素之間的距離,而由于投影關(guān)系,像素上個(gè)位數(shù)的差異經(jīng)過(guò)投影變換到真實(shí)世界中,往往就會(huì)被放大到幾米甚至十幾米(根據(jù)不同的投影尺度),因此在這個(gè)領(lǐng)域,即便是很小的數(shù)值增長(zhǎng),也是很大的提升。

接下來(lái)是可視化實(shí)驗(yàn),這里作者主要體現(xiàn)了本文方法對(duì)于遮擋和長(zhǎng)距離跟蹤的能力。

▲圖5|可視化對(duì)比實(shí)驗(yàn)??【深藍(lán)AI】編譯

從實(shí)驗(yàn)結(jié)果上來(lái)看,本文方法在遮擋出現(xiàn)的時(shí)候依舊能夠?qū)崿F(xiàn)魯棒的跟蹤,而對(duì)比方法基本上都會(huì)出現(xiàn)跟丟或者跟蹤出錯(cuò)的問(wèn)題(從圖5左圖看出),圖五的右圖主要體現(xiàn)的是長(zhǎng)距離跟蹤,圖中的自行車(chē)選手在公路上“飆車(chē)”,速度很快,對(duì)比方法出現(xiàn)了不同程度的跟丟情況,而本文方法則死死“咬住”了目標(biāo),由此體現(xiàn)出本文方法的高性能。

▲圖6|DINO特征點(diǎn)選取可視化??【深藍(lán)AI】編譯

圖6則可以看到DINO特征點(diǎn)提取的優(yōu)勢(shì),可以從圖中看到DINO提取的特征點(diǎn)十分均勻地分布在跟蹤物體的各個(gè)關(guān)鍵運(yùn)動(dòng)位置(關(guān)節(jié),輪廓邊緣)這些部分是物體運(yùn)動(dòng)的重要追蹤位置,而其他對(duì)比方法則無(wú)法實(shí)現(xiàn)對(duì)這些關(guān)鍵位置的特征提取和魯棒的追蹤。

04 總結(jié)

本文提出了DINO-Tracker的追蹤框架,能夠很好地處理追蹤過(guò)程中出現(xiàn)的遮擋關(guān)系以及長(zhǎng)距離的匯總問(wèn)題。通過(guò)利用DINO模型強(qiáng)大的先驗(yàn)知識(shí),實(shí)現(xiàn)了對(duì)于任意物體的魯棒追蹤。DINO-Tracker不僅在短期內(nèi)表現(xiàn)出色,還能在較長(zhǎng)時(shí)間跨度內(nèi)保持高精度的追蹤能力,這主要得益于其特征點(diǎn)軌跡預(yù)測(cè)方法能夠很好地忽略短時(shí)間內(nèi)的遮擋,解決了追蹤任務(wù)中的一個(gè)關(guān)鍵難題。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2014-01-14 09:45:03

Android 5.0谷歌Android 4.4

2010-04-06 09:17:29

Visual Stud

2017-05-10 09:57:11

小米手機(jī)智能

2011-09-10 19:23:22

2011-09-09 13:42:16

2016-09-29 09:46:41

JavascriptWeb前端

2023-04-27 09:27:44

視頻AI

2013-01-18 10:09:10

互聯(lián)網(wǎng)網(wǎng)絡(luò)發(fā)展撥號(hào)上網(wǎng)

2021-02-04 14:31:30

RISC-V架構(gòu)GPU

2015-07-28 11:29:59

電商亞馬遜沃爾瑪

2017-08-01 10:15:56

數(shù)據(jù)分析大數(shù)據(jù)

2015-12-21 16:12:06

紅帽CloudForms混合云

2023-06-23 14:15:09

Rust編程

2010-04-09 15:24:55

2022-07-27 12:07:58

云計(jì)算公有云云支出

2024-02-19 08:04:58

網(wǎng)關(guān)云原生

2011-05-25 10:19:17

2016-09-01 08:07:02

Linux MinixUbuntu

2025-02-20 11:29:21

2019-03-08 09:54:29

華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲电影专区 | 偷拍亚洲色图 | 久草视频观看 | 日韩成人影院 | 免费毛片网站 | 久草院线 | 日韩色在线| 羞羞视频免费在线观看 | 黑人久久久 | 免费的一级视频 | 成人三级在线播放 | 国产一区二区在线播放 | 综合久久综合久久 | 久草视频在线播放 | 亚洲三级免费看 | 一区二区高清 | 欧美性生活视频 | 成人在线观看免费 | 视频一区二区中文字幕 | 最新国产在线 | 国产视频精品视频 | 日韩在线播放中文字幕 | 免费观看一级毛片视频 | 一区二区三区国产在线观看 | 欧美二区在线 | 91精品国产91久久久久久最新 | 精品国产一级片 | 欧美区日韩区 | 国产精品高潮呻吟久久aⅴ码 | 亚洲精品乱码久久久久久蜜桃 | 2021狠狠天天天 | 91精品国产99久久 | 久久久视频在线 | 日韩精品视频在线播放 | 91se在线 | 成人一区二区三区视频 | 久草视频观看 | 午夜精品久久久久久久 | 亚洲第一视频 | 视频一区二区中文字幕 | 亚洲精品一二区 |