Meta研究員創造出人工視覺皮層,可以讓機器人通過視覺進行操作
Meta公司AI研究部門的研究人員日前發布一項公告,宣布在機器人自適應技能協調和視覺皮層復制方面取得關鍵進展。他們表示,這些進展允許AI驅動的機器人通過視覺在現實世界中操作,并且不需要獲取現實世界的任何數據。
他們聲稱,這是在創建通用的“具象AI(Embodied AI)”機器人方面的一個重大進步,這種機器人能夠在沒有人類干預的情況下與現實世界互動。研究人員還表示,他們創建了一種名為“VC-1”的人工視覺皮層,這個視覺皮層在Ego4D數據集上訓練,而Ego4D數據集來自全球各地的數千名研究參與者記錄日常活動的視頻。
正如研究人員在之前發表的一篇博客文章中解釋的那樣,視覺皮層是大腦中使生物能夠將視覺轉化為運動的區域。因此,對于任何需要根據眼前景象來執行任務的機器人來說,具備人工視覺皮層是一個關鍵要求。
由于“VC-1”的人工視覺皮層需要在各種環境中很好地執行一系列不同的感覺運動任務,Ego4D數據集發揮了特別重要的作用,因為它包含了研究參與者通過可穿戴攝像頭記錄日常活動的數千小時視頻,這些活動包括烹飪、清潔、運動、手工制作等。
研究人員稱:“生物有機體有一個通用的視覺皮層,這就是我們所尋找的具象代理。因此,我們開始創建一個在多個任務中表現良好的數據集,以Ego4D作為核心數據集,并通過添加額外的數據集來改進VC-1。由于Ego4D主要關注烹飪、園藝和手工制作等日常活動,我們還采用了探索房屋和公寓的以自我為中心的視頻數據集。”
然而,視覺皮層只是“具象AI”的一個元素,機器人要想在現實世界中完全自主地工作,還必須能夠操縱現實世界中的物體。機器人需要視覺進行導航,找到并搬運物體將它移動到另一個位置,然后正確放置——所有這些動作都是基于它所看到和聽到的情況自主實施。
為了解決這個問題,Meta的AI專家與佐治亞理工學院的研究人員合作開發了一種被稱為“自適應技能協調”(ASC)的新技術,機器人采用這種技術進行模擬訓練,然后將這些技能復制到現實世界的機器人身上。
Meta公司還與波士頓動力開展合作,展示了其ASC技術的有效性。這兩家公司將ASC技術與波士頓動力的Spot機器人相結合,使其機器人具有強大的傳感、導航和操作能力,盡管還需要大量的人工干預。例如挑選一個物體,還需要有人點擊機器人平板電腦上顯示的物體。
研究人員在文章中寫道:“我們的目標是建立一個可以通過波士頓動力API從機載傳感和電機命令中感知世界的AI模型。”
Spot機器人使用Habitat模擬器進行測試,其模擬環境采用HM3D和ReplicaCAD數據集構建,其中包含1000多個家庭的室內3D掃描數據。然后,訓練Spot機器人在一個它以前沒見過的房子里活動,搬運物體,并將它們放在合適的位置。然后將受過訓練的Spot機器人獲得的知識和信息復制到在現實世界操作的Spot機器人上,這些機器人根據他們對房屋布局的了解,自動執行同樣的任務。
研究人員寫道:“我們使用了一個185平方米的家具齊全的公寓和一個65平方米的大學實驗室這兩個截然不同的現實環境對Spot機器人進行測試,要求Spot機器人重新放置各種物品。總體而言,采用ASC技術的Spot機器人的表現近乎完美,在60次測試中成功了59次,克服了硬件不穩定、拾取故障以及移動障礙物或阻塞路徑等對抗性干擾。”
Meta的研究人員表示,他們還開放了VC-1模型的源代碼,并在另一篇的論文中分享了如何縮放模型大小、數據集大小等方面的詳細情況。與此同時,該團隊的下一個重點將是嘗試將VC-1與ASC集成,以創建一個更接近人類的具象AI系統。