H-MBA層次化MamBa模型如何突破自動(dòng)駕駛視頻理解瓶頸?這三大創(chuàng)新亮點(diǎn)揭示答案!
1. 一眼概覽:
H-MBA (Hierarchical MamBa Adaptation) 提出了一個(gè)創(chuàng)新的多模態(tài)視頻理解框架,通過結(jié)合高低時(shí)域分辨率,顯著提升了自動(dòng)駕駛場景中的視頻理解和風(fēng)險(xiǎn)物體檢測性能。
2. 核心問題:
現(xiàn)有的多模態(tài)大語言模型(MLLMs)在處理自動(dòng)駕駛中復(fù)雜的時(shí)空動(dòng)態(tài)視頻時(shí),性能有限。特別是在捕捉背景變化、車輛和行人運(yùn)動(dòng)等方面,現(xiàn)有方法難以做到準(zhǔn)確的時(shí)空理解。
3. 技術(shù)亮點(diǎn):
- 引入了層次化的MamBa模型,通過高低時(shí)域分辨率分支捕捉視頻中多粒度的時(shí)空特征。
- 提出了Q-Mamba(查詢MamBa),通過靈活地轉(zhuǎn)換當(dāng)前幀為查詢并適應(yīng)性地整合多粒度視頻上下文。
- 在DRAMA和BDD-X數(shù)據(jù)集上取得了領(lǐng)先的性能,特別是在風(fēng)險(xiǎn)物體檢測任務(wù)中,相比現(xiàn)有最先進(jìn)方法提升了5.5%的mIoU。
4. 方法框架:
H-MBA框架由兩大模塊組成:
? Context Mamba (C-Mamba):使用不同時(shí)間分辨率的時(shí)空模型來捕獲視頻的多層次上下文,包括低分辨率分支和高分辨率分支,分別捕捉明顯的運(yùn)動(dòng)變化和細(xì)節(jié)信息。
? Query Mamba (Q-Mamba):生成可學(xué)習(xí)的查詢并適應(yīng)性地整合來自C-Mamba的多粒度上下文,增強(qiáng)對視頻的時(shí)空理解。
5. 實(shí)驗(yàn)結(jié)果速覽:
? 在DRAMA數(shù)據(jù)集上,H-MBA在風(fēng)險(xiǎn)物體定位任務(wù)上取得了66.9%的mIoU,比最先進(jìn)的LCP方法提高了5.5%。
? 在BDD-X數(shù)據(jù)集上,H-MBA在描述和解釋任務(wù)中超越了BLIP-2、Video-Chat等方法,并在多個(gè)性能指標(biāo)上表現(xiàn)優(yōu)越。
6. 實(shí)用價(jià)值與應(yīng)用:
H-MBA的設(shè)計(jì)使其具有強(qiáng)大的實(shí)際應(yīng)用潛力,特別是在自動(dòng)駕駛領(lǐng)域。其對復(fù)雜駕駛場景的高效理解和風(fēng)險(xiǎn)物體檢測功能可顯著提升自動(dòng)駕駛系統(tǒng)的安全性和交互性,具有廣泛的商業(yè)應(yīng)用前景。
7. 開放問題:
? 如何應(yīng)對在極為復(fù)雜或不連續(xù)的相機(jī)運(yùn)動(dòng)下,H-MBA的表現(xiàn)是否依然穩(wěn)定?
? 是否可以將層次化的MamBa結(jié)構(gòu)擴(kuò)展到其他領(lǐng)域的時(shí)空建模任務(wù)中,例如醫(yī)學(xué)影像分析或工業(yè)自動(dòng)化?