根據文本描述從視頻中摳圖，Transformer：這種跨模態任務我最擅長

作者：量子位 2022-03-08 09:06:33

隨時CV和NLP領域的發展，研究人員意識到，視頻和文本可以同時通過單個多模態Transformer模型進行有效處理。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

都說Transformer適合處理多模態任務。

這不，在視頻目標分割領域，就有人用它同時處理文本和視幀，提出了一個結構更簡單、處理速度更快（每秒76幀）的視頻實例分割框架。

這個框架只需一串文本描述，就可以輕松將視頻中的動態目標“摳”出來：

可以實現端到端訓練的它，在基準測試中的多個指標上表現全部優于現有模型。

目前，相關論文已被CVPR 2022接收，研究人員來自以色列理工學院。

根據文本描述進行視頻目標分割這一多模態任務（RVOS），需要結合文本推理、視頻理解、實例分割和跟蹤技術。

現有的方法通常依賴復雜的pipeline來解決，很難形成一個端到端的簡便好用的模型。

隨時CV和NLP領域的發展，研究人員意識到，視頻和文本可以同時通過單個多模態Transformer模型進行有效處理。

為此，他們提出了這個叫做MTTR （Multimodal Tracking Transformer）的新架構，將RVOS任務建模為序列（sequence）預測問題。

首先，輸入的文本和視頻幀被傳遞給特征編碼器進行特征提取，然后將兩者連接成多模態序列（每幀一個）。

接著，通過多模態Transformer對兩者之間的特征關系進行編碼，并將實例級（instance-level ）特征解碼為一組預測序列。

接下來，生成相應的mask和參考預測序列。

最后，將預測序列與基準（ground truth，在有監督學習中通常指代樣本集中的標簽）序列進行匹配，以供訓練過程中的監督或用于在推理過程中生成最終預測。

具體來說，對于Transformer輸出的每個實例序列，系統會生成一個對應的mask序列。

為了實現這一點，作者采用了類似FPN（特征金字塔網絡）的空間解碼器和動態生成的條件卷積核。

而通過一個新穎的文本參考分數函數，該函數基于mask和文本關聯，就可以確定哪個查詢序列與文本描述的對象具有最強的關聯，然后返回其分割序列作為模型的預測。

作者在三個相關數據集上對MTTR進行了性能測試：JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。

前兩個數據集的衡量指標包括IoU（交并比，1表示預測框與真實邊框完全重合）、平均IoU和precision@K（預測正確的相關結果占所有結果的比例）。

結果如下：

可以看到，MTTR在所有指標上都優于所有現有方法，與SOTA模型相比，還在第一個數據集上提高了4.3的mAP值（平均精度）。

頂配版MTTR則在平均和總體IoU指標上實現了5.7的mAP增益，可以在單個RTX 3090 GPU上實現每秒處理76幀圖像。

MTTR在JHMDBs上的結果表明MTTR也具備良好的泛化能力。

更具挑戰性的Refer-YouTube-VOS數據集的主要評估指標為區域相似性（J）和輪廓精度（F）的平均值。

MTTR在這些指標上全部“險勝”。

一些可視化結果表明，即使在目標對象被類似實例包圍、被遮擋或完全超出畫面等情況下，MTTR都可以成功地跟蹤和分割文本引用的對象。

最后，作者表示，希望更多人通過這項成果看到Transformer在多模態任務上的潛力。

最最后，作者也開放了兩個試玩通道，感興趣的同學可以戳文末鏈接～

△ Colab試玩效果

責任編輯：張燕妮來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看