南洋理工提出全場景圖生成PSG任務，像素級定位物體，還得預測56種關系

作者：新智元 2022-08-23 13:50:49

本文提出基于全景分割的全場景圖生成（panoptic scene graph generation，即PSG）任務。

現在已經2022年了，但是當下大多數的計算機視覺任務卻仍然只關注于圖像感知。比如說，圖像分類任務只需要模型識別圖像中的物體物體類別。雖然目標檢測，圖像分割等任務進一步要求找到物體的位置，然而，此類任務仍然不足以說明模型獲得了對場景全面深入的理解。

以下圖1為例，如果計算機視覺模型只檢測到圖片中的人、大象、柵欄、樹木等，我們通常不會認為模型已經理解了圖片，而該模型也無法根據理解做出更高級的決策，例如發出「禁止投喂」的警告。

圖1：原示例圖

事實上，在智慧城市、自動駕駛、智能制造等許多現實世界的AI場景中，除了對場景中的目標進行定位外，我們通常還期待模型對圖像中各個主體之間的關系進行推理和預測。例如，在自動駕駛應用中，自動車需要分析路邊的行人是在推車還是在騎自行車。根據不同的情況，相應的后續決策可能都會有所不同。

而在智能工廠場景中，判斷操作員是否操作安全正確也需要監控端的模型有理解主體之間關系的能力。大多數現有的方法都是手動設置一些硬編碼的規則。這使得模型缺乏泛化性，難以適應其他特定情況。

場景圖生成任務（scene graph generation，或SGG）就旨在解決如上的問題。在對目標物體進行分類和定位的要求之上，SGG任務還需要模型預測對象之間的關系（見圖 2）。

圖2：場景圖生成

傳統場景圖生成任務的數據集通常具有對象的邊界框標注，并標注邊界框之間的關系。但是，這種設置有幾個固有的缺陷：

（1）邊界框無法準確定位物體：如圖2所示，邊界框在標注人時不可避免地會包含人周圍的物體；

（2）背景無法標注：如圖2所示，大象身后的樹木用bounding box標注，幾乎覆蓋了整個圖像，所以涉及到背景的關系無法準確標注，這也使得場景圖無法完全覆蓋圖像，無法達到全面的場景理解。

因此，作者提出全場景圖生成（PSG）任務，攜同一個精細標注的大規模PSG數據集。

圖3：全場景圖生成如圖 3 所示，該任務利用全景分割來全面準確地定位對象和背景，從而解決場景圖生成任務的固有缺點，從而推動該領域朝著全面和深入的場景理解邁進。

論文信息

Paper link: https://arxiv.org/abs/2207.11247Project Page: https://psgdataset.org/OpenPSG Codebase: https://github.com/Jingkang50/OpenPSGCompetition Link: https://www.cvmart.net/race/10349/baseECCV’22 SenseHuman Workshop Link: https://sense-human.github.io/HuggingFace Demo Link: https://huggingface.co/spaces/ECCV2022/PSG

作者提出的PSG數據集包含近五萬張coco的圖片，并基于coco已有的全景分割標注，標注了分割塊之間的關系。作者精細地定義了56種關系，包括了位置關系（over，in front of，等），常見的物體間關系（hanging from等），常見的生物動作（walking on，standing on，等），人類行為（cooking等），交通場景中的關系（driving，riding等），運動場景中的關系（kicking等），以及背景間關系（enclosing等）。作者要求標注員能用更準確的動詞表達就絕不用更模糊的表達，并且盡可能全地標注圖中的關系。

PSG模型效果展示

任務優勢

作者通過下圖的例子再次理解全場景圖生成（PSG）任務的優勢：

左圖來自于SGG任務的傳統數據集Visual Genome (VG-150)。可以看到基于檢測框的標注通常不準確，而檢測框覆蓋的像素也不能準確定位物體，尤其是椅子，樹木之類的背景。同時，基于檢測框的關系標注通常會傾向于的標注一些無聊的關系，如「人有頭」，「人穿著衣服」。

相比之下，右圖中提出的 PSG 任務提供了更全面（包括前景和背景的互動）、更清晰（合適的物體粒度）和更準確（像素級準確）的場景圖表示，以推動場景理解領域的發展。

兩大類PSG模型

為了支撐提出的PSG任務，作者搭建了一個開源代碼平臺OpenPSG，其中實現了四個雙階段的方法和兩個單階段的方法，方便大家開發、使用、分析。

雙階段的方法利用Panoptic-FPN在第一階段中對圖像進行全景分割。

接下來作者提取全景分割得到的物體的特征以及每一對物體融合的關系特征，送至下一階段的關系預測階段。框架已集成復現了傳統場景圖生成的經典方法IMP，VCTree，Motifs，和GPSNet。

PSGFormer是基于雙decoder DETR的單階段方法。模型首先在a)中通過卷積神經網絡backbone提取圖片特征并加以位置編碼信息作為編碼器的輸入，同時初始化一組用以表示三元組的queries。與DETR類似地，在b)中模型將編碼器的輸出作為key和value與表示三元組的queries一同輸入解碼器進行cross-attention操作。隨后模型在c)中將解碼完成的每個query分別輸入主謂賓三元組對應的預測模塊，最后得到對應的三元組預測結果。

PSGFormer基于雙decode的DETR的單階段方法。模型在a) 通過CNN提取圖片特征，加以位置編碼信息輸入編碼器，同時初始化了兩組queries分別代表物體和關系。接著在b)步驟里，模型基于編碼器編碼的圖片信息，分別在物體解碼器和關系編碼器中通過cross-attention解碼學習物體query和關系query。

當兩類query均學習完畢后，在c)中通過映射后匹配，得到成對的三元組query。最后在d)中通過預測頭分別完成關于物體query和關系query的預測，并根據c)中的匹配結果得到最終的三元組預測結果。

PSGTR與PSGFormer都是在DETR的基礎上進行擴展和改進的模型，不同的地方在于PSGTR用一組query對于三元組直接建模而PSGFormer則通過兩組query分別對物體和關系建模，兩種方法各有利弊，具體可參考論文中實驗結果。

結論分享

大部分在SGG任務上有效的方法在PSG任務上依舊有效。然而有一些利用較強的數據集統計先驗，或主謂賓中謂語方向先驗的方法可能沒那么奏效。這可能是由于PSG數據集相較于傳統VG數據集的bias沒有那么嚴重，并且對謂語動詞的定義更加清晰可學。因此，作者希望后續的方法關注視覺信息的提取和對圖片本身的理解。統計先驗可能在刷數據集上有效，但不本質。

相比于雙階段模型，單階段模型目前能達到更好的效果。這可能得益于單階段模型有關于關系的監督信號可以直接傳遞到feature map端，使得關系信號參與了更多的模型學習，有利于對關系的捕捉。但是由于本文只提出了若干基線模型，并沒有針對單階段或雙階段模型進行調優，因此目前還不能說單階段模型一定強于雙階段模型。這還希望參賽選手繼續探索。

相比于傳統的SGG任務，PSG任務基于全景分割圖進行關系配對，要求對于每個關系中主賓物體的id 進行確認。相比于雙階段直接預測全景分割圖完成物體id 的劃分，單階段模型需要通過一系列后處理完成這一步驟。若基于現有單階段模型進一步改進升級，如何在單階段模型中更有效的完成物體id的確認，生成更好的全景分割圖，仍是一個值得探索的話題。

最后，歡迎大家試用HuggingFace：

Demo：https://huggingface.co/spaces/ECCV2022/PSG

關于圖像生成的展望

最近大火的基于文字輸入的生成模型（如DALL-E 2）著實令人驚嘆，但是也有研究表明，這些生成模型可能只是把文本中的幾個實體粘合在一起，甚至都沒有理解文本中表述的空間關系。如下圖，雖然輸入的是「杯子在勺子上」，生成的圖片仍然都是「勺子在杯子里」。

正巧，PSG數據集標注了基于mask的scene graph關系。作者可以利用scene graph和全景分割mask作為訓練對，得到一個text2mask的模型，在基于mask生成更細致的圖片。因此，PSG數據集有可能也為注重關系的圖像生成提供了潛在的解決方案。

P.S. 旨在激勵領域共同探索全面的場景識別的「PSG Challenge」火熱進行中，百萬獎金等你來拿！Competition Link: https://www.cvmart.net/race/10349/base

責任編輯：張燕妮來源：新智元

人工智能模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看