Facebook和NUS、MIT等高校聯(lián)合推出3000小時(shí)的第一視角視頻數(shù)據(jù)集Ego4D

作者：我在思考中 2021-10-18 10:14:54

為了開啟下一波AI技術(shù)浪潮，為增強(qiáng)現(xiàn)實(shí) (AR) 和智能機(jī)器人賦能，AI需要從現(xiàn)在的第三視角轉(zhuǎn)換成第一視角的全新范式。

圖1. 左：同一場景在第一視角和第三視角下；右：第一視角視頻采集設(shè)備

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

從第三視角看世界，和從第一視角和世界互動(dòng)，有顯著差異。比如說，看別人坐過山車和自己坐過山車，體驗(yàn)完全不同。

本文摘要翻譯自NUS新聞：https://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/

為了開啟下一波AI技術(shù)浪潮，為增強(qiáng)現(xiàn)實(shí) (AR) 和智能機(jī)器人賦能，AI需要從現(xiàn)在的第三視角轉(zhuǎn)換成第一視角的全新范式。這是因?yàn)樵诘谝灰暯堑氖澜缰校Ｓ袑?shí)時(shí)的運(yùn)動(dòng)變化，手與物體的交互，多種感官的信息融合。

為此，F(xiàn)acebook聯(lián)合新加坡國立大學(xué) (NUS) 、MIT等世界各地的13所大學(xué)組成了一個(gè)學(xué)術(shù)聯(lián)盟，致力于開展一個(gè)長期項(xiàng)目——Ego4D（第一視角的 4D 實(shí)時(shí)感知 )。

Ego4D鏈接：https://ego4d-data.org/

來自NUS研究團(tuán)隊(duì)的Principal Investigator（主要負(fù)責(zé)人），助理教授Mike壽政說：“在過去十年里，我們見證了AI在理解圖像方面的變革，這是建立在 ImageNet 等數(shù)據(jù)集所奠定的基礎(chǔ)上的。類似的，我相信我們的 Ego4D 數(shù)據(jù)集，將為第一視角的視頻研究打好基礎(chǔ)，從而推動(dòng)智能感知在 AR 和機(jī)器人方面的快速發(fā)展。”

目前最大的第一視角視頻數(shù)據(jù)集

圖 2. Ego4D 是目前最大的第一視角的日常活動(dòng)視頻數(shù)據(jù)集

大多數(shù)AI系統(tǒng)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練，現(xiàn)有的大規(guī)模視頻數(shù)據(jù)集通常以第三視角為主；而現(xiàn)有的第一視角數(shù)據(jù)集在規(guī)模、多樣性和復(fù)雜性上都很有限。因此，該學(xué)術(shù)聯(lián)盟推出了 Ego4D 數(shù)據(jù)集：

● 大規(guī)模：研究人員分發(fā)頭戴式相機(jī)或者AR眼鏡給數(shù)據(jù)采集者，從而收集了累計(jì)3,000 小時(shí)的、日常活動(dòng)中的第一視角視頻；

● In-the-wild：包含了人們的日常生活的數(shù)百種不同活動(dòng)，記錄了相機(jī)佩戴者在關(guān)注什么，用手和面前的物體做什么，以及他們是如何與其他人互動(dòng)的；

● 多樣性：涵蓋全球 73 個(gè)地點(diǎn)、9個(gè)國家，700 多名不同背景、種族、職業(yè)、年齡的數(shù)據(jù)采集者，囊括不同的文化和地理差異；

● 抽好的特征：所有視頻，均有預(yù)先抽好的SlowFast特征，方便大家進(jìn)行實(shí)驗(yàn)；

● 授權(quán)公開：這些數(shù)據(jù)將于 2021 年 11 月公開，視頻中的所有可見人臉和可聽懂的語音均已獲得參與者的授權(quán)。

新任務(wù)，新技術(shù)

圖3. 通過采集的第一視角視頻數(shù)據(jù)，Ego4D團(tuán)隊(duì)可以開發(fā)AI模型來解決新的任務(wù)

與數(shù)據(jù)收集同樣重要的是，定義正確的任務(wù)，進(jìn)行嚴(yán)格的人工標(biāo)注，來引導(dǎo)新技術(shù)的研發(fā)。

為此，Ego4D 學(xué)術(shù)聯(lián)盟聯(lián)合構(gòu)建了五個(gè)全新的、具有挑戰(zhàn)性的任務(wù)：

(1) 情景記憶：什么時(shí)候發(fā)生了什么？如圖3A, 告訴我錢包最近一次出現(xiàn)的位置。

(2) 預(yù)測未來：我接下來要做什么？如圖3B, 他即將跳起來抓住單杠。

(3) 手與物體交互：我在做什么以及如何做？如圖3C, 告訴我下一步的操作。

(4) 視覺+聽覺：多人場景下，誰在什么時(shí)候說了什么？如圖3D, 生成會(huì)議內(nèi)容的總結(jié)。

(5) 社交交互：人與人如何交互？如圖3D, 我注視著他，而他正在對我說話。

“我們NUS研究團(tuán)隊(duì)主要為其中兩個(gè)關(guān)鍵任務(wù)開發(fā)模型：一是，利用聲音和視覺線索幫助AI識別“誰在什么時(shí)候說了什么；二是，開發(fā)具有社交智能的 AI，檢測當(dāng)下誰在對誰說話，誰在關(guān)注誰。”同樣來自NUS團(tuán)隊(duì)的Co-PI李海洲教授如是說。

有第一視角感知能力的AI，將賦能AR眼鏡、智能機(jī)器人等等同樣是第一視角的設(shè)備，將在我們的日常生活和工作中發(fā)揮更大作用。想象一下：在對著新菜譜做菜時(shí)，不必再來來回回地看菜譜，你的AR 眼鏡就可以實(shí)時(shí)地同步指導(dǎo)你執(zhí)行每個(gè)步驟；對于有阿爾茨海默癥等健康問題的人，AR眼鏡可以幫助他們回憶錢包放在哪里了。

Ego4D數(shù)據(jù)集只是起點(diǎn)，研發(fā)第一視角AI技術(shù)，進(jìn)而賦能智能機(jī)器人、AR眼鏡，將在不遠(yuǎn)的將來，改變我們的生活、工作、娛樂方式，帶給我們前所未有的、虛擬與現(xiàn)實(shí)交融的體驗(yàn)。

更多技術(shù)詳情請見Arxiv論文：https://arxiv.org/abs/2110.07058

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

數(shù)據(jù)技術(shù)模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Facebook和NUS、MIT等高校聯(lián)合推出3000小時(shí)的第一視角視頻數(shù)據(jù)集Ego4D