成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺定位新SOTA!華人團隊開源革新框架SegVG,邊界框轉為分割信號 | ECCV 2024

人工智能 新聞
SegVG是一種新的視覺定位方法,通過將邊界框注釋轉化為像素級分割信號來增強模型的監督信號,同時利用三重對齊模塊解決特征域差異問題,提升了定位準確性。實驗結果顯示,SegVG在多個標準數據集上超越了現有的最佳模型,證明了其在視覺定位任務中的有效性和實用性。

視覺定位(Visual Grounding)旨在基于自由形式的自然語言文本表達定位圖像中的目標物體。

隨著多模態推理系統的普及,如視覺問答和圖像描述,視覺定位的重要性愈加凸顯。已有的研究大致可以分為三類:兩階段方法、單階段方法和基于Transformer的方法。

盡管這些方法取得了良好的效果,但在注釋的利用上仍顯得不足,尤其是僅將框注釋作為回歸的真值樣本,限制了模型的性能表現。

具體而言,視覺定位面臨的挑戰在于其稀疏的監督信號,每對文本和圖像僅提供一個邊界框標簽,與目標檢測任務(Object Detection)存在顯著不同,因此充分利用框注釋至關重要,將其視為分割掩膜(即邊界框內的像素賦值為1,外部像素賦值為0),可以為視覺定位提供更細粒度的像素級監督。

伊利諾伊理工學院、中佛羅里達大學的研究人員提出了一個名為SegVG的新方法,旨在將邊界框級的注釋轉化為分割信號,以提供更為豐富的監督信號。

圖片

論文鏈接:https://arxiv.org/abs/2407.03200

代碼鏈接:https://github.com/WeitaiKang/SegVG/tree/main

該方法倡導多層多任務編碼器-解碼器結構,學習回歸查詢和多個分割查詢,以通過回歸和每個解碼層的分割來實現目標定位。

此外,為了解決由于特征域不匹配而產生的差異,研究中引入了三重對?模塊,通過三重注意機制更新查詢、文本和視覺特征,以確保共享同一空間,從而提高后續的目標檢測效果。

綜上,SegVG通過最大化邊界框注釋的利用,提供了額外的像素級監督,并通過三重對?消除特征之間的域差異,這在視覺定位任務中具有重要的創新意義。

以下是來自論文中的相關圖示,用以進一步說明視覺定位框架的不同:

圖片

方法

在本節中,介紹了SegVG方法的各個組件,按數據流的順序進行說明,包括?干網絡、Triple Alignment模塊以及Multi-layer Multi-task Encoder-Decoder。

骨干網絡

SegVG方法的視覺?干網絡和文本?干網絡分別處理圖像和文本數據。視覺?干網絡使用的是經過Object Detection任務在MSCOCO數據集上預訓練的ResNet和DETR的Transformer編碼器。

文本?干網絡使用BERT的嵌入層將輸入文本轉換為語言Token,在Token前添加一個[CLS]標記,并在末尾添加一個[SEP]標記,隨后通過BERT層迭代處理得到語言嵌入。

Triple Alignment

Triple Alignment模塊致力于解決視覺骨干、文本骨干和查詢特征之間的域差異。該模塊利用注意力機制執行三角形特征采樣,確保查詢、文本和視覺特征之間的一致性。

輸?的查詢被初始化為可學習的嵌入,包含一個回歸查詢和多個分割查詢。這?過程按以下方式進行:

圖片

通過這種方式,Triple Alignment模塊能夠在每?層迭代幫助三類特征實現有效地對齊。

Multi-layer Multi-task Encoder-Decoder

其目標對接階段的核心部分,旨在通過跨模態融合和目標對接同時執行邊框回歸任務和邊框分割任務。

編碼器部分融合了文本和視覺特征,每一層通過多頭自注意力層(MHSA)和前饋網絡(FFN)過程實現提升。解碼器部分則通過bbox2seg范式將邊框注釋轉化為分割掩碼,分割掩碼將框內的像素標記為前景(值為1),而框外像素則標記為背景(值為0)。

在每一解碼層中,一個回歸查詢用于回歸邊框,多個分割查詢則用于對目標進行分割。

圖片

上述公式中,各種損失函數(如L1損失、GIoU損失、Focal損失和Dice損失)被結合用于驅動模型的訓練過程,使得模型在執行回歸和分割任務時獲得強化的反饋。

通過將分割輸出的信心值轉化為Focal損失因子,可以有效地強調那些難以訓練的數據樣本,以進一步提升模型的性能。

整體而言,SegVG方法實現了對邊框注釋的最大化利用,并有效解決了多模態特征間的域差異問題,為視覺目標定位任務帶來了重要的改進和提升。

實驗

在實驗部分,研究者對所提出的SegVG模型進行了全面的評估,涉及多個標準數據集和不同的實驗設置,以驗證其有效性和優越性。

指標與數據集

研究者采用的主要評估指標是交并比(IoU)和前1準確率,以評估預測邊界框與真實邊界框的匹配程度。使用的標準基準數據集包括RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd以及Refer It Game等。

實施細節

研究中對數據輸入進行了特別配置,使用640x640的圖像大小,以及最大文本?度設定為40。當圖像大小調整時,會保持原始寬高比。模型的訓練過程采用AdamW優化器,及其學習率和權重衰減參數。

定量結果

在定量實驗中,SegVG模型在所有基準數據集中表現出色。例如,在RefCOCO+數據集上,其預先訓練模型在各個子集上相較于之前的最先進模型取得了顯著提升,分別達到了2.99%、3.7%和2.42%的準確率提升。

在RefCOCOg數據集上,SegVG同樣取得了+3.03%、+2.31%和+3.24%的準確率提升。這些結果證明了結合TripleAlignment和Multi-layerMulti-taskEncoder-Decoder后,模型在目標定位和準確性上的提升。

圖片

消融研究

進一步分析通過控制變量法對各個模塊的有效性進行消融研究。研究顯示,加入Triple Alignment模塊后,可以有效消除查詢、文本及視覺特征之間的領域差異,進而促進后續的目標定位。

圖片

此外,通過加入Multi-layer Multi-task監督,能夠迭代充分利用注釋信息,從而增強查詢表示的學習能力。

計算開銷比較

研究者還對不同Transformer模型的參數數量和GFLOPS進行了比較,以評估SegVG的計算開銷,結果表明,SegVG的計算成本處于合理范圍,符合實際應用需求。

圖片

定性結果

在定性分析中,通過對比不同模型在目標檢測中的表現,SegVG在初始解碼層階段就能準確識別目標位置,相較于對比模型VLTVG而言,表現更加穩健。

圖片

 具體案例中,SegVG成功定位復雜背景下的目標,顯示了其在多任務優化時的高度有效性。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-15 12:32:29

GPT-4開源

2025-04-28 03:22:45

2024-06-24 13:35:58

2024-04-11 07:10:59

大語言模型AI人工智能

2024-08-26 09:35:00

模型文生圖

2023-04-11 09:43:21

模型AI

2025-02-21 13:00:00

2025-03-03 10:17:00

模型數據生成

2022-12-06 14:11:32

開源模型

2025-02-10 08:30:00

2024-06-24 08:15:00

2024-08-19 08:45:00

開源模型

2025-04-25 09:05:00

2024-05-17 17:16:50

SOTA視覺模型

2024-06-28 13:47:17

2023-04-23 15:42:18

圖像視頻

2022-04-08 14:40:59

框架訓練模型

2023-04-25 11:36:17

CV模型

2023-02-01 13:29:46

機器學習

2025-02-17 07:00:00

蘋果模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线一区 | 亚洲一区中文字幕在线观看 | 日韩精品一区二区久久 | 日韩视频免费 | 97超碰人人草 | 日韩精品一区二区三区视频播放 | 日韩午夜在线播放 | 欧美精品一区免费 | 久久专区| 日韩中文字幕在线 | 亚洲精品一 | 欧美在线精品一区 | 日韩精品免费看 | 久久久久久高清 | 欧美精品一区在线发布 | 91精品国产乱码久久久久久久久 | 国产一区二区三区高清 | 国产免费一区二区三区免费视频 | 欧美视频免费在线 | 国产第一页在线观看 | 欧美激情久久久 | 国产精品一区视频 | 国产亚洲一区二区三区在线 | 一区二区三区四区五区在线视频 | 久久av一区二区三区 | 伊人导航| 久久免费福利 | 天天综合久久 | 8x国产精品视频一区二区 | 91亚洲国产成人久久精品网站 | 成人午夜免费福利视频 | 亚洲美女天堂网 | 欧美老少妇一级特黄一片 | 久久99一区二区 | 黄色免费av| 欧美日韩综合视频 | 色网站视频 | 中文字幕亚洲一区二区三区 | 久久成人国产精品 | 日韩免费一区二区 | 欧美性影院 |