AI即將擁有自我意識?Facebook推「Ego4D 」開啟元宇宙大門
你有想象過,有一天,戴上頭盔,眼前立刻懸浮出科幻場景般的炫麗世界嗎?
在鋼鐵俠電影中,每當(dāng)托尼斯塔克穿上機(jī)械盔甲,頭盔合上的那一刻,超級人工智能管家賈維斯就會在他眼前出現(xiàn),幫助他分析眼前的情況。
鋼鐵俠頭盔里的賈維斯,其實是以第一人稱視角來理解世界的,所以會帶來電影里那樣的沉浸式體驗。
在未來,增強(qiáng)現(xiàn)實(AR)眼鏡和虛擬現(xiàn)實(VR)耳機(jī)等設(shè)備在日常生活中,將會變得像智能手機(jī)一樣普遍。
想象一下,你的增強(qiáng)現(xiàn)實設(shè)備準(zhǔn)確地顯示了如何在鼓課上握住木棒,指導(dǎo)你完成一個食譜,幫助你找到丟失的鑰匙,或者像全息圖一樣浮現(xiàn)出你的記憶。
為了實現(xiàn)這些新技術(shù),人工智能需要像我們一樣,從第一人稱的角度理解世界并與它互動,這在研究界,通常被稱為以第一人稱為中心的視覺感知。
然而,今天的計算機(jī)視覺(CV)系統(tǒng)從數(shù)以百萬計的照片和視頻中學(xué)習(xí),盡管發(fā)展飛速,有了喜人的研究進(jìn)展,可這些照片和視頻都是以第三人稱視角拍攝的,相機(jī)的視角只是一個行動的旁觀者視角。
嗯。。。鋼鐵俠系列的電影都結(jié)束了,現(xiàn)實生活中什么時候才能見到像賈維斯那樣,以第一視角理解世界的AI,出現(xiàn)在增強(qiáng)現(xiàn)實設(shè)備里呢?
別著急,有眉目了!
「Ego4D」計劃
2021年,F(xiàn)acebook AI正在宣布開展「Ego4D」(Egocentric 4D Perception)計劃, 這是一個雄心勃勃的長期項目,為的就是解決以第一人稱視覺為中心的感知領(lǐng)域的研究挑戰(zhàn)。
「Ego4D」(Egocentric 4D Perception)是一個大規(guī)模的以第一人稱視覺為中心的數(shù)據(jù)集,具有前所未有的多樣性。它由來自全球9個不同國家74個地點(diǎn)的855名獨(dú)特參與者收集的3025小時視頻組成。
該項目匯集了88名研究人員,將這一數(shù)據(jù)集的規(guī)模大幅增加了一個數(shù)量級,比任何其他項目都大20多倍,并且即將在11月底開放下載。

讓AI也體驗「第一人稱視角」
就拿過山車來說吧,你在上面體驗著腎上腺素飆升的快感。而下面的人則是看得一臉懵比。
人工智能,就更懵了……如果把CV系統(tǒng)綁在過山車上,它估計完全不知道自己該看些什么。即便在地面上從旁觀者的角度看了幾十萬張過山車的圖片或視頻,也是如此。

AI在第一人稱視角把自行車上的部件識別為「紅綠燈」
Facebook首席研究科學(xué)家Kristen Grauman表示:「為了使人工智能系統(tǒng)能夠像我們一樣與世界互動,人工智能領(lǐng)域需要發(fā)展到一種全新的第一人稱感知范式。這意味著教人工智能在實時運(yùn)動、互動和多感官觀察的背景下,通過人類的眼睛理解日常生活活動。」
于是,F(xiàn)acebook AI在「Ego4D」中開放了五個以第一人稱視覺體驗為中心的基準(zhǔn)挑戰(zhàn)。
哎,你看到我的手機(jī)了嗎?我又找不著我的手機(jī)了!
很熟悉,對吧?
Ego4D希望解決的第一個問題是情景記憶(Episodic memory)。
以第一人稱視覺為中心的視頻記錄了相機(jī)佩戴者的日常生活,如果用這些視頻去訓(xùn)練AI,AI就能學(xué)會通過檢索過去以第一人稱視覺為中心的視頻中的關(guān)鍵時刻來擴(kuò)展你的個人記憶。
你可能會問人工智能各種自由形式的問題,比如:視覺查詢「我把我孩子最喜歡的泰迪熊放在哪里了?」、文本查詢「我加了多少杯糖」,以及事件查詢「我什么時候和狗玩的」。
為此,模型必須能響應(yīng)你的提問,并在過去的視頻幀中定位,進(jìn)一步提供記憶中的三維空間方向,時間,事件細(xì)節(jié)等信息。
壞了,接下來我要做什么來著?
Ego4D要解決的第二個問題便是預(yù)測(Forecasting):下一步我要做什么?
人工智能可以理解佩戴者的行為會如何影響這個人未來的狀態(tài),比如這個人可能會移動到哪里,他們可能會觸摸什么物體,或者他們接下來可能會從事什么活動。
預(yù)測行動不僅需要認(rèn)識到已經(jīng)發(fā)生的事情,還需要展望未來,預(yù)測下一步行動。這樣AI系統(tǒng)就可以在當(dāng)下提供有用的指導(dǎo)。
比方說,就在你準(zhǔn)備端著鍋里的湯就走的時候,你的人工智能助手會趕緊通知你,「等等,你沒加鹽咋吃啊?」
我在做什么,該怎么做?
手-物之間的互動(Hand and object manipulation)也是難點(diǎn)之一,因為AI需要理解我在做什么,該怎么做?
學(xué)習(xí)手如何與物體互動對于AI指導(dǎo)我們的日常生活至關(guān)重要。AI必須檢測第一人稱的人-物交互,識別抓取,并檢測物體狀態(tài)變化。這時,AI機(jī)器人可以總結(jié)視頻中觀察到的人類經(jīng)驗,獲得自己的經(jīng)驗。
因此,當(dāng)你在烹飪一份食譜時,人工智能助手可以指導(dǎo)你需要哪些配料,需要先做什么,了解你已經(jīng)做了什么,指導(dǎo)你度過每一個「大腦宕機(jī)」的時刻。
剛剛他說了什么,他什么時候說的?
人類可以用聲音來理解世界,未來的人工智能也要學(xué)會這種視聽記錄(Audio-visual diarization)。
如果你正在上一堂重要的課,但因為爸媽給你發(fā)短信而分了心,你可以問AI:「教授把我們的試卷收上去之后,說明天要講什么」?
我正在與誰互動,如何互動?
社會互動(Social interaction)是Ego4D所盼望的最后一個方向。
除了識別視覺和聲音提示,理解社交互動是智能人工智能助手的核心。一個社交智能人工智能會理解誰在和誰說話,誰在關(guān)注誰。
所以,下次你參加晚宴時,即使再嘈雜,AI助手可以幫助你專注于桌子對面和你說話的人在說什么。
以上這些基準(zhǔn)挑戰(zhàn)都是以第一人稱視覺為中心的人工智能的基本構(gòu)建模塊,這將讓AI不僅可以在現(xiàn)實世界中理解和互動,還可以在元宇宙中進(jìn)行理解和互動,構(gòu)成更有用的人工智能助手和其他未來創(chuàng)新的基礎(chǔ)。
一個又大又干凈的數(shù)據(jù)集
基準(zhǔn)和數(shù)據(jù)集在歷史上被證明是人工智能行業(yè)創(chuàng)新的關(guān)鍵催化劑。畢竟,今天的CV系統(tǒng)可以識別圖像中的幾乎任何物體,是建立在數(shù)據(jù)集和基準(zhǔn)之上的,例如MNIST、COCO和ImageNet,它們?yōu)檠芯咳藛T提供了研究真實世界圖像的測試平臺。
但是以自我為中心的感知是一個全新的領(lǐng)域。我們不可能用昨天的工具來構(gòu)建明天的創(chuàng)新。Ego4D的空前規(guī)模和多樣性對于迎來下一代智能人工智能系統(tǒng)至關(guān)重要。
Ego4D數(shù)據(jù)集的地理覆蓋面、場景、參與者和捕獲模式都各不相同。數(shù)據(jù)也是使用多種不同的現(xiàn)成頭戴式攝像機(jī)捕獲的,如GoPro、Vuzix Blade等等。

除了視頻之外,Ego4D的部分功能還提供其他數(shù)據(jù)形式:3D掃描立體圖、音頻、多個同步可穿戴攝像頭等等。
Ego4D數(shù)據(jù)集的貢獻(xiàn)者也來自很多所大學(xué),包括大家熟知的卡內(nèi)基梅隆大學(xué),佐治亞理工學(xué)院,東京大學(xué)和新加坡國立大學(xué)等。

參與者錄制需要錄制大約8分鐘的日常場景片段,如買菜、做飯、玩游戲時的交談以及與家人和朋友進(jìn)行的集體活動。
Ego4D捕捉到了佩戴攝像機(jī)的人在特定環(huán)境中選擇注視的地方,他們用手(和他們面前的物體)做了什么,以及他們?nèi)绾螐牡谝蝗朔Q視角與其他人互動。它們當(dāng)中的一些鏡頭還可以與3D掃描、慣性測量單元的運(yùn)動數(shù)據(jù)和眼球追蹤相搭配。
下一步是什么?
Facebook AI試圖通過Ego4D項目打造一條全新的道路,以構(gòu)建更智能、更具交互性和靈活性的計算機(jī)視覺系統(tǒng)。
隨著人工智能對人們正常生活方式有了更深入的理解,它可以開始以前所未有的方式對交互體驗進(jìn)行情境化和個性化。
Grauman表示:「Ego4D使人工智能有可能獲得根植于物理和社會世界的知識,這些知識是通過生活在其中的人的第一人稱視角收集的。」
「由此開始,人工智能不僅會更好地了解周圍的世界,有一天它可能還會實現(xiàn)個性化——它能知道你最喜歡的咖啡杯,或者為你的下一次家庭旅行指引路線。」
有了Ego4D的基準(zhǔn)支持,配合上在全新數(shù)據(jù)集中的訓(xùn)練,AI助手有可能以非常獨(dú)特和有意義的方式提供很多的價值,比如,幫助回憶起最近與同事交談中的關(guān)鍵信息,或者指導(dǎo)制作新的晚餐食譜。
Facebook表示,從這一系列工作中獲得的價值將推動我們走向未來的「現(xiàn)實」。
對此,瑪麗皇后大學(xué)的人工智能研究員Mike Cook認(rèn)為,「從積極的角度來說,至少就目前而言,這是一個非常棒的大型數(shù)據(jù)集。」
「不過,這實際上并沒有解決人工智能中的一個緊迫挑戰(zhàn)或問題......除非你是一家想要銷售可穿戴相機(jī)的科技公司。它確實告訴你更多關(guān)于Facebook的未來計劃,但是......他們向它注入資金并不意味著它一定會變得重要。」