Facebook和NUS、MIT等高校聯(lián)合推出3000小時(shí)的第一視角視頻數(shù)據(jù)集Ego4D
圖1. 左:同一場景在第一視角和第三視角下;右:第一視角視頻采集設(shè)備
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
本文摘要翻譯自NUS新聞:https://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/
為此,F(xiàn)acebook聯(lián)合新加坡國立大學(xué) (NUS) 、MIT等世界各地的13所大學(xué)組成了一個(gè)學(xué)術(shù)聯(lián)盟,致力于開展一個(gè)長期項(xiàng)目——Ego4D(第一視角的 4D 實(shí)時(shí)感知 )。
Ego4D鏈接:https://ego4d-data.org/
來自NUS研究團(tuán)隊(duì)的Principal Investigator(主要負(fù)責(zé)人),助理教授Mike壽政說:“在過去十年里,我們見證了AI在理解圖像方面的變革,這是建立在 ImageNet 等數(shù)據(jù)集所奠定的基礎(chǔ)上的。類似的,我相信我們的 Ego4D 數(shù)據(jù)集,將為第一視角的視頻研究打好基礎(chǔ),從而推動(dòng)智能感知在 AR 和機(jī)器人方面的快速發(fā)展。”
圖 2. Ego4D 是目前最大的第一視角的日常活動(dòng)視頻數(shù)據(jù)集
大多數(shù)AI系統(tǒng)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,現(xiàn)有的大規(guī)模視頻數(shù)據(jù)集通常以第三視角為主;而現(xiàn)有的第一視角數(shù)據(jù)集在規(guī)模、多樣性和復(fù)雜性上都很有限。因此,該學(xué)術(shù)聯(lián)盟推出了 Ego4D 數(shù)據(jù)集:
● 大規(guī)模:研究人員分發(fā)頭戴式相機(jī)或者AR眼鏡給數(shù)據(jù)采集者,從而收集了累計(jì)3,000 小時(shí)的、日常活動(dòng)中的第一視角視頻;
● In-the-wild:包含了人們的日常生活的數(shù)百種不同活動(dòng),記錄了相機(jī)佩戴者在關(guān)注什么,用手和面前的物體做什么,以及他們是如何與其他人互動(dòng)的;
● 多樣性:涵蓋全球 73 個(gè)地點(diǎn)、9個(gè)國家,700 多名不同背景、種族、職業(yè)、年齡的數(shù)據(jù)采集者,囊括不同的文化和地理差異;
● 抽好的特征:所有視頻,均有預(yù)先抽好的SlowFast特征,方便大家進(jìn)行實(shí)驗(yàn);
● 授權(quán)公開:這些數(shù)據(jù)將于 2021 年 11 月公開,視頻中的所有可見人臉和可聽懂的語音均已獲得參與者的授權(quán)。
圖3. 通過采集的第一視角視頻數(shù)據(jù),Ego4D團(tuán)隊(duì)可以開發(fā)AI模型來解決新的任務(wù)
與數(shù)據(jù)收集同樣重要的是,定義正確的任務(wù),進(jìn)行嚴(yán)格的人工標(biāo)注,來引導(dǎo)新技術(shù)的研發(fā)。
為此,Ego4D 學(xué)術(shù)聯(lián)盟聯(lián)合構(gòu)建了五個(gè)全新的、具有挑戰(zhàn)性的任務(wù):
(1) 情景記憶:什么時(shí)候發(fā)生了什么?如圖3A, 告訴我錢包最近一次出現(xiàn)的位置。
(2) 預(yù)測未來:我接下來要做什么?如圖3B, 他即將跳起來抓住單杠。
(3) 手與物體交互:我在做什么以及如何做?如圖3C, 告訴我下一步的操作。
(4) 視覺+聽覺:多人場景下,誰在什么時(shí)候說了什么?如圖3D, 生成會(huì)議內(nèi)容的總結(jié)。
(5) 社交交互:人與人如何交互?如圖3D, 我注視著他,而他正在對我說話。
“我們NUS研究團(tuán)隊(duì)主要為其中兩個(gè)關(guān)鍵任務(wù)開發(fā)模型:一是,利用聲音和視覺線索幫助AI識別“誰在什么時(shí)候說了什么;二是,開發(fā)具有社交智能的 AI,檢測當(dāng)下誰在對誰說話,誰在關(guān)注誰。”同樣來自NUS團(tuán)隊(duì)的Co-PI李海洲教授如是說。
有第一視角感知能力的AI,將賦能AR眼鏡、智能機(jī)器人等等同樣是第一視角的設(shè)備,將在我們的日常生活和工作中發(fā)揮更大作用。想象一下:在對著新菜譜做菜時(shí),不必再來來回回地看菜譜,你的AR 眼鏡就可以實(shí)時(shí)地同步指導(dǎo)你執(zhí)行每個(gè)步驟;對于有阿爾茨海默癥等健康問題的人,AR眼鏡可以幫助他們回憶錢包放在哪里了。
Ego4D數(shù)據(jù)集只是起點(diǎn),研發(fā)第一視角AI技術(shù),進(jìn)而賦能智能機(jī)器人、AR眼鏡,將在不遠(yuǎn)的將來,改變我們的生活、工作、娛樂方式,帶給我們前所未有的、虛擬與現(xiàn)實(shí)交融的體驗(yàn)。