李飛飛團隊提出世界模型基準：“世界生成”能力迎來統(tǒng)一評測，3D/4D/視頻模型同臺PK

作者：量子位 2025-04-10 09:10:00

李飛飛吳佳俊團隊提出了全面評測基準WorldScore，涵蓋了三大類評估指標，動態(tài)靜態(tài)都有涉及，其數(shù)據(jù)集中包含了3000個測試樣例。

世界模型領(lǐng)域最新進展，要比拼“世界生成”了。

李飛飛吳佳俊團隊提出了全面評測基準WorldScore，涵蓋了三大類評估指標，動態(tài)靜態(tài)都有涉及，其數(shù)據(jù)集中包含了3000個測試樣例。

并且，WorldScore將3D場景生成、4D場景生成和視頻生成三類模型的評估，統(tǒng)一到了一起。

利用WorldScore基準，團隊對一共19款模型進行了全面評估。

評估的結(jié)果揭示了當前世界生成技術(shù)面臨的相機控制能力不足、長序列世界生成困難等主要挑戰(zhàn)，為模型研究人員提供了重要參考。

正如網(wǎng)友所評價，從單一場景到整體世界構(gòu)建的轉(zhuǎn)變，需要這樣的基準來對研究做出指導。

3D/4D/視頻生成統(tǒng)一評測

研究團隊認為，之前的基準測試（例如 VBench）僅能評估單個場景的生成能力，遠未達到“世界”生成的層次。

并且以前的基準測試僅考慮視頻模型，但世界生成模型還包括3D和4D方法，而WorldScore可以對所有這些模型進行統(tǒng)一評估。

WorldScore將世界生成任務(wù)分解成一系列連續(xù)的下一場景生成任務(wù)，每個任務(wù)由三個關(guān)鍵組成部分定義：

數(shù)據(jù)集方面，WorldScore包含了3000個測試樣例，其中2000個用于評估靜態(tài)世界生成能力，1000個用于評估動態(tài)世界生成能力。

靜態(tài)世界生成數(shù)據(jù)涵蓋了10個場景類別，包括5類室內(nèi)場景（餐飲空間、居住空間、通道、公共空間、工作空間）和5類室外場景（城市、郊區(qū)、水域景觀、陸地景觀、綠色景觀）。

動態(tài)世界數(shù)據(jù)則包含了5種不同類型的運動：關(guān)節(jié)運動、可變形運動、流體運動、剛體運動和多物體運動。

每個測試樣例都有兩個版本——真實風格和藝術(shù)風格，以評估模型在不同視覺域的表現(xiàn)。

所涉及的指標則包括了可控性、質(zhì)量和動態(tài)評估（靜態(tài)場景不涉及此項）三個大類。

其中可控性評估，具體又包括了三項指標：

相機控制能力：通過計算生成視頻中相機運動與指定軌跡的偏差來評估，具體計算尺度不變的旋轉(zhuǎn)誤差和平移誤差，然后取其幾何平均值；
物體控制能力：使用開放集物體檢測模型檢查指定物體是否出現(xiàn)在生成場景中，從文本提示中提取1-2個關(guān)鍵物體描述，計算檢測到這些物體的成功率；
內(nèi)容一致性：使用CLIPScore評估生成場景與完整文本描述的語義匹配程度。

質(zhì)量評估，涵蓋了四項內(nèi)容：

3D一致性：使用DROID-SLAM估計每幀的密集深度圖，計算連續(xù)幀之間可見像素的重投影誤差，評估場景幾何結(jié)構(gòu)的穩(wěn)定性；
光度一致性：通過計算連續(xù)幀之間的光流來評估外觀和紋理的穩(wěn)定性，使用平均端點誤差（AEPE）來量化不穩(wěn)定的視覺表現(xiàn)；
風格一致性：計算第一幀和最后一幀Gram矩陣之間的F范數(shù)差異，評估風格保持程度；
主觀質(zhì)量：結(jié)合CLIP-IQA+和CLIP Aesthetic兩個自動評估指標（該組合經(jīng)過200人的人類研究驗證最接近人類感知）。

動態(tài)評估則包含三個方面：