上交大校友獲最佳論文,機器人頂會CoRL 2022獎項公布
自 2017 年首次舉辦以來,CoRL 已經成為了機器人學與機器學習交叉領域的全球頂級學術會議之一。CoRL 是面向機器人學習研究的 single-track 會議,涵蓋機器人學、機器學習和控制等多個主題,包括理論與應用。
2022年的CoRL大會于12月14日至18日在新西蘭奧克蘭舉行。
?
本屆大會共收到504篇投稿,最終接收34篇Oral論文、163篇Poster論文,接收率為39%。
?
目前,CoRL 2022 公布了最佳論文獎、最佳系統論文獎、特別創新獎等全部獎項。賓夕法尼亞大學GRASP實驗室碩士、上海交通大學校友Kun Huang獲得了大會最佳論文獎。
最佳論文獎
獲得本屆大會最佳論文獎的是來自賓夕法尼亞大學的一項研究。
?
- 論文標題:Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning
- 作者:Kun Huang、Edward Hu、Dinesh Jayaraman
- 論文鏈接:https://openreview.net/pdf?id=sK2aWU7X9b8
論文摘要:通常來說,物理相互作用有助于揭示不太明顯的信息,例如我們可能會拉一下桌腿來評估它是否穩固,或者把一個水瓶倒過來檢查它是否漏水,該研究建議可以通過訓練機器人來自動獲得這種交互行為,以評估機器人嘗試執行技能的結果。這些評估反過來作為IRF(interactive reward functions),用于訓練強化學習策略以執行目標技能,例如擰緊桌腿。此外,即使完全訓練完成之后,IRF也可以作為改進在線任務執行的驗證機制。對于任何給定的任務, IRF訓練非常方便,并且不需要進一步的規范。
評估結果表明,IRF 可以實現顯著的性能改進,甚至可以通過訪問演示或精心設計的獎勵來超越基線。比如下圖中,機器人必須先關門,然后旋轉對稱的門把手才能完全鎖住門。
門鎖(door locking)評估示例演示
下面實驗的目的是將 3 個視覺上相同的塊堆疊成一個穩定的塔,其中的一個小方塊明顯比其他兩塊重,所以最佳策略是將它放在底部。
堆疊評估示例演示
為了檢查算法的魯棒性和通用性,該研究使用具有 9 個關節的 D'Claw 在真實機器人擰緊實驗中對其進行測試。此任務的目的是將4-prong閥門順時針旋轉約 180° 進入擰緊狀態(閥門底座上的白線)。
作者介紹?
本次獲得CoRL 2022最佳論文獎的作者共有三位,分別是Kun Huang、Edward Hu、Dinesh Jayaraman 。
Dinesh Jayaraman為賓夕法尼亞大學GRASP實驗室的助理教授,他領導著感知、行動和學習(PAL)研究小組,致力于計算機視覺、機器學習和機器人技術的交叉問題研究。
Kun Huang為賓夕法尼亞大學GRASP實驗室碩士,在Dinesh Jayaraman教授的指導下研究強化學習。他在密歇根大學獲得了計算機科學學士學位,在那里他與 Dmitry Berenson 教授一起研究機器人感知。Kun Huang本科畢業于上海交通大學,研究興趣包括機器人與現實世界的應用。Kun Huang 在碩士期間曾在 Waymo 實習,畢業后將加入 Cruise 擔任機器學習工程師。
領英主頁:https://www.linkedin.com/in/kun-huang-620034171/
Edward S. Hu 為賓夕法尼亞大學GRASP實驗室的博士生,師從Dinesh Jayaraman教授。他的主要研究興趣包括基于模型的強化學習等。Edward在南加州大學獲得了計算機科學碩士和學士學位,在那里他與Joseph J. Lim教授一起研究機器人的強化和模仿學習。
最佳論文入圍名單
此次會議共有3篇論文入圍最佳論文獎項,除了最終得獎的論文以外,其他2篇分別是:
?
- 論文標題:Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations
- 作者:Chenhao Li、Marin Vlastelica、Sebastian Blaes、Jonas Frey、Felix Grimminger、Georg Martius
- 論文鏈接:https://arxiv.org/pdf/2206.11693.pdf
?
- 論文標題:Supercharging Imitation with Regularized Optimal Transport
- 作者:Siddhant Haldar 、 Vaibhav Mathur、Denis Yarats、Lerrel Pinto
- 論文鏈接:https://arxiv.org/pdf/2206.15469.pdf
最佳系統論文獎
獲得本屆大會最佳系統論文獎的是來自CMU、UC伯克利的一項研究。
?
- 論文標題:Legged Locomotion in Challenging Terrains using Egocentric Vision
- 作者:Ananye Agarwal,Ashish Kumar,Jitendra Malik, Deepak Pathak
- 論文鏈接:https://arxiv.org/pdf/2211.07638.pdf
論文摘要:動物能夠利用視覺進行精確而敏捷的運動,而復制這種能力一直是機器人技術的一個長期目標。傳統的方法是將這個問題分解為海拔測繪和落腳點規劃階段(foothold planning phase)。然而,海拔測繪很容易受到故障和大面積噪聲的影響,需要專門的硬件而且在生物學上是不可行的。
在本文中,研究者提出了第一個能夠穿越樓梯、路邊、墊腳石和空隙的端到端運動系統,并在一個中等大小、使用單個正面的深度攝像頭的四足機器人上展示了這一結果。由于機器人體積小,需要發現其他地方沒有的專門的步態模式。攝像頭需要掌握記住過去的信息的策略,以估計身后腳下的地形。
研究者在模擬環境中訓練了機器人的策略。訓練分為兩個階段:首先使用強化學習訓練一個具有低計算成本的深度圖像變體的策略,然后將其提煉為使用監督學習的深度的最終策略。
?
最終的策略可遷移到現實世界,并能夠在機器人有限的計算能力上實時運行。它可以穿越大量的地形,同時對諸如濕滑表面和巖石地形等干擾具有魯棒性。
墊腳石和空隙
機器人能夠跨過各種配置的吧臺凳,并調整步長以跨過大間隙。由于后腳附近沒有攝像頭,機器人必須記住吧臺凳的位置并在相應的位置放置后腳。
樓梯和路邊
該機器人能夠爬上24厘米高、30厘米寬的樓梯。策略適用于各種照明條件下的不同樓梯和路邊。在分布不均勻的樓梯,機器人最初會被卡住,但最終能夠使用爬升行為跨過這些障礙。
非結構化地形
機器人可以穿越不屬于其訓練類別之一的非結構化地形,顯示了系統的泛化能力。
黑暗中的移動
深度相機使用紅外光投射圖案,即使在幾乎沒有環境光的情況下也能準確估計深度。
魯棒性
策略對大力量(從高處投擲 5 公斤重物)和濕滑表面(水倒在塑料布上)具有魯棒性。
作者介紹?
這項研究共有四位作者。
Jitendra Malik現為UC伯克利電氣工程和計算機科學系Arthur J. Chick教授,他的研究領域包括計算機視覺、人類視覺的計算建模、計算機圖形學和生物圖像分析等。
本次獲獎研究的作者之一Ashish Kumar是他的博士生。
Deepak Pathak現為卡內基梅隆大學助理教授,他在加州大學伯克利分校獲得博士學位,研究的主題包括機器學習、機器人和計算機視覺。
本次獲獎研究的作者之一Ananye Agarwal是他的博士生。
此外,Deepak Pathak還有一項研究在本次大會最佳系統論文獎的入圍名單之內。
- 論文標題:Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion
- 作者:Zipeng Fu, Xuxin Cheng, Deepak Pathak
- 論文鏈接:https://arxiv.org/abs/2210.10044
特別創新獎
這次大會還評選出了特別創新獎,這項研究由谷歌的多位研究者共同完成。
- 論文標題:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
- 作者:Brian Ichter 、 Anthony Brohan 、Michael Ahn 等
- 論文鏈接:https://arxiv.org/pdf/2204.01691.pdf
論文摘要:大型語言模型可以編碼關于世界的大量語義知識,這樣的知識對機器人非常有用。然而,語言模型存在這樣一個缺點,即對真實世界缺乏經驗,這使得其在給定任務上很難利用語義進行決策。
來自谷歌的研究者建議通過預訓練技能來提供大型語言模型在現實世界的基礎,這些技能用于約束模型,以提出既可行又適合上下文的自然語言操作。機器人可以充當語言模型的「手和眼睛」,而語言模型提供關于任務的高級語義知識。該研究展示了低級技能如何與大型語言模型相結合,以便語言模型提供有關執行復雜和時間擴展指令的過程的高級知識,而與這些技能相關的值函數提供了將這些知識連接到特定物理環境所需的基礎。
研究者將大型語言模型(LLM)與機器人的物理任務組合到一起時用到了這樣一個原則:除了讓 LLM 簡單地解釋一條指令之外,還可以用它來評估單個動作對完成整個高級指令有幫助的概率。簡單來說,每個動作可以有一個語言描述,我們可以通過 prompt 語言模型讓它給這些動作打分。此外,如果每個動作都有一個相應的 affordance 函數,可以量化它從當前狀態(比如學到的價值函數)獲得成功的可能性。兩個概率值的乘積就是機器人能成功地完成一個對于指令有幫助的動作的概率。根據這個概率將一系列動作排序,選取概率最高的一個。
下圖示例展示的是機器人幫助拿蘋果: