挑戰(zhàn)人類認知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集
來自MIT-IBM 沃森人工智能實驗室首席科學家淦創(chuàng)團隊提出了新一代視覺推理數(shù)據(jù)集,該數(shù)據(jù)集提出了基于局部(part)的視覺推理,并融合了五類人類認知推理任務(wù):概念型推理,關(guān)系型推理,類比型推理,數(shù)學推理和物理推理。
人類視覺感知的一個關(guān)鍵點是將視覺場景解析為物體,并進一步解析為物體的各個局部,從而形成部分 - 整體層次結(jié)構(gòu)。這種層級結(jié)構(gòu)可以誘導出豐富的語義概念和關(guān)系,從而在解釋和組織視覺信息方面,以及視覺感知和推理的泛化方面發(fā)揮著重要作用。然而,現(xiàn)有的視覺推理數(shù)據(jù)集主要關(guān)注整個物體,而不是物體中的局部。由于更細粒度的概念、更豐富的幾何關(guān)系和更復雜的物理關(guān)系,基于部分 - 整體層次結(jié)構(gòu)的視覺推理比以物體整體為中心的推理更具挑戰(zhàn)性。
因此,為了更好地闡釋和理解基于局部的概念和關(guān)系,本文引入了一個新的名為 PTR 的大規(guī)模診斷型視覺推理數(shù)據(jù)集。PTR 包含大約七萬 RGBD 合成圖像,帶有關(guān)于語義實例分割、顏色屬性、空間和幾何關(guān)系以及某些物理屬性(例如穩(wěn)定性)的物體和局部標注。這些圖像配有五種類型的問題:概念型推理,關(guān)系型推理,類比型推理,數(shù)學推理和物理推理。這些類型均來自于人類認知推理的重要方面,但在以往的工作中并沒有被充分探索過。
本文在這個數(shù)據(jù)集上檢驗了幾個最先進的視覺推理模型。研究者觀察到它們的表現(xiàn)遠遠不及人類表現(xiàn),特別是在一些較新的推理類型(例如幾何,物理問題)任務(wù)上。該研究期待這個數(shù)據(jù)集能夠促進機器推理向更復雜的人類認知推理推進。

- 論文地址:http://ptr.csail.mit.edu/assets/ptr.pdf
- 項目主頁:http://ptr.csail.mit.edu
1、背景介紹
視覺推理要求機器通過觀察給定的場景來回答推理問題。近年來,由于在自然數(shù)據(jù)中存在大量的噪聲和偏差,研究人員合成數(shù)據(jù)集。合成數(shù)據(jù)集的生成是完全可控的,因此研究者更容易診斷推理模型中的不足。CLEVR[1] 是這類數(shù)據(jù)集中的代表。然而,各類視覺推理模型在 CLEVR 上的準確率已經(jīng)趨近飽和,這是因為 CLEVR 數(shù)據(jù)集的推理局限于感知層面,遠遠落后于人類在認知層面的推理能力。因此,本文提出了新一代視覺推理數(shù)據(jù)集,專注于對人類來說相對容易,但在機器推理領(lǐng)域還沒有被充分發(fā)掘的新任務(wù)。
同時,之前的視覺推理數(shù)據(jù)集主要關(guān)注物體的整體特征,而不太強調(diào)詳細的局部理解。然而,心理學證據(jù)表明,人類會將視覺場景解析為部分 - 整體層次結(jié)構(gòu)。因此,本文提出的數(shù)據(jù)集主要專注于整體 - 部分關(guān)系的推理。

圖二:PTR 數(shù)據(jù)集介紹
2、數(shù)據(jù)集介紹
PTR 數(shù)據(jù)集有七萬的 RGBD 圖片和 70 萬基于這些圖片的問題。本文作者提供了詳細的圖片標注,包括語義實例分割、幾何、物理狀態(tài)的標注。數(shù)據(jù)集的生成采取了精細的偏差和噪聲控制。
下圖總結(jié)了 PTR 數(shù)據(jù)集涵蓋的概念。

圖三:PTR 數(shù)據(jù)集中的概念
可以看出,PTR 數(shù)據(jù)集具有豐富的認知層面的概念和關(guān)系。在物體整體方面,具有空間關(guān)系、物理狀態(tài)等概念,在局部方面,有幾何關(guān)系等概念。整體 - 部分的加入大大增加了視覺推理的層次性和豐富性。
PTR 數(shù)據(jù)集包含了五類問題:概念型推理,關(guān)系型推理,類比型推理,數(shù)學推理和物理推理。
2.1 概念型推理
主要考察機器對于整體 - 部分的概念和關(guān)系的理解。
2.2 關(guān)系型推理
主要考察機器對于物體之間的空間關(guān)系,和局部之間的幾何關(guān)系的理解。

2.3 類比型推理
主要考察機器能否將物體之間 / 局部之間的關(guān)系遷移到其他物體 / 局部上。

2.4 數(shù)學推理
主要考察機器能否對場景進行數(shù)學推理。

2.5 物理推理
主要考察機器能否對物體的物理狀態(tài)作出判斷。

3、實驗部分
本文檢驗了幾個 SOTA 視覺推理模型在該數(shù)據(jù)集上的效果,包括 NS-VQA[2], MDETR[3], MAC[4] 等。

圖四:實驗結(jié)果
從結(jié)果可以看出,視覺推理模型的效果要遠遠低于人類表現(xiàn)。其中 NS-VQA 用到了 ground-truth 分割、語義等訓練模型。然而,在較難的問題例如物理、幾何上面效果仍然很差。
為進一步研究該結(jié)果來源于感知上的不正確還是認知推理上的能力欠缺,本文對 NS-VQA 模型進行了消融研究。

圖五:NS-VQA 模型的消融研究
結(jié)果表明,即便擁有完美的感知能力并給予該模型所有需要的物體、局部分割,模型在幾何、類比、物理問題上效果依舊不樂觀。
實驗表明,該研究數(shù)據(jù)集對未來機器如何進行和人類一樣的認知推理,特別是在一些比較難的物理、集合問題上進行推理,提出了非常重要的方向。