李飛飛「空間智能」系列新進(jìn)展，吳佳俊團(tuán)隊(duì)新「BVS」套件評估計(jì)算機(jī)視覺模型

作者：機(jī)器之心 2024-05-21 12:23:00

吳佳俊帶領(lǐng)團(tuán)隊(duì)發(fā)表了后續(xù)研究——「BEHAVIOR Vision Suite（BVS）」。論文也獲得 CVPR 2024 Highlight。

在不久之前的 2024 TED 演講中，李飛飛詳細(xì)解讀了 空間智能（Spatial Intelligence）概念。她對計(jì)算機(jī)視覺領(lǐng)域在數(shù)年間的快速發(fā)展感到欣喜并抱有極大熱忱，并為此正在創(chuàng)建初創(chuàng)公司

在此演講中，曾提到斯坦福團(tuán)隊(duì)的一個研究成果 BEHAVIOR，這是他們「創(chuàng)建」的一個用來訓(xùn)練計(jì)算機(jī)和機(jī)器人如何在三維世界中行動的行為和動作數(shù)據(jù)集。

如今，吳佳俊帶領(lǐng)團(tuán)隊(duì)發(fā)表了后續(xù)研究——「BEHAVIOR Vision Suite（BVS）」。論文也獲得 CVPR 2024 Highlight。

在計(jì)算機(jī)視覺領(lǐng)域，系統(tǒng)評估和理解模型在不同條件下的表現(xiàn)需要?量數(shù)據(jù)和全?、定制的標(biāo)簽。然?，現(xiàn)實(shí)世界中的視覺數(shù)據(jù)集往往難以滿?這些需求。盡管?前的合成數(shù)據(jù)?成器為具? AI 任務(wù)提供了有前景的替代?案，但在資產(chǎn)和渲染質(zhì)量、數(shù)據(jù)多樣性及物理屬性的真實(shí)性??，仍存在諸多不?。

為了解決這些問題，研究團(tuán)隊(duì)推出了「BEHAVIOR Vision Suite（BVS）」。

BVS 是?套專為系統(tǒng)評估計(jì)算機(jī)視覺模型?設(shè)計(jì)的?具和資源集。基于新開發(fā)的具? AI 基準(zhǔn)BEHAVIOR-1K，BVS ?持?量可調(diào)參數(shù)，涵蓋場景級別（如光照、物體擺放）、物體級別（如關(guān)節(jié)配置、屬性）和相機(jī)級別（如視野、焦距）。研究?員可以在數(shù)據(jù)?成過程中?由調(diào)整這些參數(shù)，以進(jìn)?精確的控制實(shí)驗(yàn)。

此?作還展?了 BVS 在不同模型評估和訓(xùn)練應(yīng)?中的優(yōu)勢，包括參數(shù)可控地評估視覺模型在環(huán)境參數(shù)連續(xù)變化時的魯棒性，系統(tǒng)評估場景理解模型（豐富的視覺標(biāo)注），以及對新視覺任務(wù)的模型訓(xùn)練。

項(xiàng)目鏈接：https://behavior-vision-suite.github.io/
論文鏈接：https://arxiv.org/pdf/2405.09546
代碼鏈接：https://github.com/behavior-vision-suite/behavior-vision-suite.github.io

BEHAVIOR Vision Suite

BVS 包括兩?部分：數(shù)據(jù)部分和基于此的可定制數(shù)據(jù)?成器。

數(shù)據(jù)部分

BVS 的數(shù)據(jù)部分基于 BEHAVIOR-1K 的資產(chǎn)拓展?成，共包括 8841個 3D 物體模型和由 51 位藝術(shù)家設(shè)計(jì)的室內(nèi)場景，擴(kuò)充為 1000 個場景實(shí)例。這些模型和場景均具備逼真的外觀，并涵蓋了豐富的語義類別。研究團(tuán)隊(duì)同時提供了一個腳本，讓用戶可以自動生成更多的增強(qiáng)場景實(shí)例。

BEHAVIOR-1K的資產(chǎn)拓展

可定制數(shù)據(jù)?成器

可定制數(shù)據(jù)?成器可以讓?戶?便地利? BVS 的數(shù)據(jù)部分來?成滿?他們需求的圖?數(shù)據(jù)集，例如暗光下的室內(nèi)場景。

BVS 可以讓?成的數(shù)據(jù)集在滿?需求的同時，具備較?的語義多樣性，同時確保其逼真性和物理合理性。具體來說，?戶可以控制以下五個??：相機(jī)位置、光照、物體屬性（如??）、物體狀態(tài)（如開、關(guān)）和物體之間的空間關(guān)系。

應(yīng)?場景

研究者展?了在三個應(yīng)?場景下 BVS 所?成數(shù)據(jù)的作?，包括：

參數(shù)可控地評估視覺模型在環(huán)境參數(shù)連續(xù)變化時的魯棒性：探究模型在不同環(huán)境參數(shù)（遮擋程度，環(huán)境亮度，拍攝角度，物體關(guān)節(jié)移動，視野）連續(xù)變化情況下的表現(xiàn)，例如評估物體檢測模型在冰箱門從完全關(guān)閉到完全打開過程中，模型能正確檢測出存在冰箱的準(zhǔn)確率，確保模型在實(shí)際應(yīng)?中能夠應(yīng)對各種環(huán)境變化。還可以探究模型在不同極限參數(shù)條件的能力邊界。
評估場景理解模型：使?擁有全?標(biāo)注的圖像，系統(tǒng)評估各種場景理解模型的性能。
訓(xùn)練新視覺任務(wù)模型：在合成數(shù)據(jù)上訓(xùn)練對象狀態(tài)和關(guān)系預(yù)測的新視覺任務(wù)模型，并評估其從模擬到真實(shí)應(yīng)?的轉(zhuǎn)移能?，確保模型在真實(shí)環(huán)境中的有效性。

參數(shù)可控地評估視覺模型在環(huán)境參數(shù)連續(xù)變化時的魯棒性

通過?成在某?維度上連續(xù)變化的數(shù)據(jù)，研究?員系統(tǒng)評估視覺模型在此變化下的魯棒性。例如，?成同?場景中物體遮擋程度逐漸增加的數(shù)據(jù)，以評估視覺模型在部分遮擋物件下的表現(xiàn)。

通過評估不同 SOTA 模型，研究者發(fā)現(xiàn)，現(xiàn)有模型在常見分布之外的數(shù)據(jù)上的表現(xiàn)仍有不?。由于這些數(shù)據(jù)在現(xiàn)實(shí)世界中難以獲得或標(biāo)注，這些結(jié)論很難直接從真實(shí)圖?數(shù)據(jù)集中得出。因此，BVS 可以幫助研究者評估模型在他們感興趣的條件下的魯棒性，從?更好地開發(fā)和提升模型。

現(xiàn)有SOTA模型在條件變化下（例如相機(jī)仰?）仍有魯棒性上的提升空間

不同檢測模型在五種環(huán)境參數(shù)連續(xù)變化時的表現(xiàn)

評估場景理解模型

BVS 所?成的數(shù)據(jù)集的另??特征是其包含多模態(tài)的真實(shí)標(biāo)簽，如深度、語義分割、?標(biāo)邊界框等。這使得研究者可以利? BVS ?成的數(shù)據(jù)在同?圖像上評估不同任務(wù)的預(yù)測模型。

研究團(tuán)隊(duì)評估了開放詞匯檢測和分割、深度估計(jì)和點(diǎn)云重建四個任務(wù)的 SOTA 模型，并發(fā)現(xiàn)模型在 BVS 數(shù)據(jù)集上的表現(xiàn)順序與在對應(yīng)任務(wù)真實(shí)數(shù)據(jù)基準(zhǔn)上的表現(xiàn)?致。這表明 BVS 生成的高質(zhì)量數(shù)據(jù)真實(shí)地反映和代表了現(xiàn)實(shí)數(shù)據(jù)，研究者希望這樣的數(shù)據(jù)集可以促進(jìn)多任務(wù)預(yù)測模型的發(fā)展。

在開源的代碼中，研究團(tuán)隊(duì)也提供了一個腳本，方便用戶在場景中采樣軌跡。

研究者收集了許多場景瀏覽視頻?于評估場景理解模型

整體場景理解數(shù)據(jù)集。研究者在具有代表性的場景中生成了大量遍歷視頻，每個場景包含10多個攝像機(jī)軌跡。對于每個圖像，BVS生成了各種標(biāo)簽（例如，場景圖、分割掩碼、深度圖）

SOTA模型在BVS數(shù)據(jù)上的相對表現(xiàn)順序與真實(shí)任務(wù)基準(zhǔn)相符

訓(xùn)練新視覺任務(wù)模型

BVS 的數(shù)據(jù)?成不僅限于模型評估，對于難以在現(xiàn)實(shí)場景中收集或標(biāo)注數(shù)據(jù)的任務(wù)， BVS 數(shù)據(jù)也可?于模型訓(xùn)練。

作者利? BVS ?成了 12.5k 張圖?，僅?其訓(xùn)練了?個物體空間關(guān)系和狀態(tài)預(yù)測模型。該模型在未使?真實(shí)數(shù)據(jù)訓(xùn)練的情況下，仍在真實(shí)場景下達(dá)到了 0.839 的 F1 得分，體現(xiàn)了優(yōu)秀的仿真到現(xiàn)實(shí)的轉(zhuǎn)移能?（sim-to-real transfer）。