成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2024的我們應該如何看待具身智能

人工智能 新聞
以ChatGPT為代表的大模型讓我們瞥見了未來的一隅。機器人大模型在過去一年里出現在了幾乎每一個機器人公司的PPT里。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

最近看了記錄短片《斯坦福AI六十年》。從1962年到2022年,機器人或者具身智能的研究從第一天起就貫穿了人工智能的發展。2024年,這六十年中提出的大多數問題,從象棋,視覺,語音識別都獲得了解決——除了機器人。而如何創造通用機器人便是我日思夜想的問題。做科研自然是令人疲乏的,然而思考這個問題卻是令人興奮的。

2023年可謂是具身智能在中文圈被知曉的元年。這種爆紅是我不必再和每個VC解釋我們的究極理想并不是制造一個機械軀殼,而是未來能徹底解放人類勞動力的“人”??v觀歷史,每一件新興事物的爆紅都伴隨著機遇和泡沫。作為麻省理工具身智能實驗室的一名博士生學者,我希望通過這篇隨筆讓世界各地的從業者更好更理性地了解具身智能的機遇與挑戰,為領域帶來可持續性的發展。

以ChatGPT為代表的大模型讓我們瞥見了未來的一隅。機器人大模型在過去一年里出現在了幾乎每一個機器人公司的PPT里。PaLM-E,RT1,RT2等論文也拋磚引玉式的向大家展現了可以讓大模型直接輸出控制信號這個愿景。那么大語言模型的思路會給我們帶通用機器人么?要解答這個問題,我愿意把“大模型”這個詞展開為“大模型與大數據”。

大語言模型不光需要十億級別的神經網絡參數,還需要在大量的網絡數據上進行預訓練。例如Llama3這樣的開源大語言模型光預訓練就使用了15萬億個token。相比之下,機器人的數據采集就難得多。人們每天都在網絡上拍照片,發文字,自然而然地產生著這兩個模態的數據。你會拿著排隊買到的網紅奶茶拍照發朋友圈,但是永遠不會在配字里寫上“我的大拇指關節分別轉動了30度,20度,45度來抓住這杯奶茶”。我認為只要有足夠多的高質量機器人數據,機器人大模型絕對能帶來接近通用的泛化性,但是機器人的動作數據哪里來是一個不容樂觀的問題——這些直接輸出動作模態的大模型的泛化性也因此非常有限。這個問題即便是在文字-圖像這樣較為成熟的多模態模型里仍然存在——我在Google Deepmind實習期間的論文SpatialVLM發現最好的多模態大模型都常常左右不分,因此可以推測目前很多有動作模態輸出的“機器人大模型”之所以能操縱機械手正確地往左往右,很可能只是在有限的動作數據上過擬合了而已,并不是魔法般地因為結合了文字-圖像基礎模型而泛化。因此,問題的答案取決于我們能否在動作模態的數據上達到GPT的量級。

好消息是工業界和學術界大家都在著手解決機器人數據缺乏的問題。我與很多學者愿意將其中的努力概括為兩個維度,靈巧性(dexterity) 與泛化性(generalization)。靈巧性主要反映在在單一場景和任務比較固定情況下能讓機器人做成多難的任務,例如在同一張桌子上用同一臺卷筆刀削放在差不多同一個位置的同一支鉛筆。泛化性則研究讓機器人能去新的場景下執行新的任務,哪怕這些任務看起來很簡單很蠢,例如在任何房間的任何桌子上能用手把任何指定的鉛筆推到指定的地方。讓機器人兼具靈巧性與泛化性是具身智能的終極目標。目前在靈巧性維度上最火的方向是模仿學習中的行為克隆——依靠人工采集關節動作數據,再用監督學習的方法訓練機器人。

在硬件層面,ALOHA式的關節到關節mapping,VR眼鏡的手部動作捕捉,特斯拉的動捕手套,RT-X數據集都是學術界和工業界進行更高效數據采集的嘗試。這些方法中的大多數需要給每個數據采集員配一臺昂貴的機器人,但特斯拉擎天柱,figure AI到斯坦福炒蝦機器人已經讓我們看到了行為克隆的潛力。行為克隆讓一些特別驚艷且泛化需求有限的任務能用簡單的算法完成。但與此同時,因為人工采集動作數據的效率低,所有demo中展現的泛化性都是極其有限的——如果把香蕉換成橙子并移動個半米,換一張花紋不一樣的桌子,這些視頻里的機器人用他們發布時在有限數據上訓練的模型就無能為力了,更不用提跨任務了。

當然,你也可以收集多任務的數據,例如香蕉和橙子的數據混起來,并采集很多不同初始位置的demo,但是除非你的任務數量多到大語言模型那種程度,剝香蕉和剝橙子上訓練的動作模型還是不能解決剝芒果的問題。很多通用人形機器人公司也采用了行為克隆作為切入點,因為它最容易出好看的視頻——沒人能把你視頻里的場景換成從沒見過的任務來測試你模型的泛化性。

公眾也更喜歡看機器人做日常家務的視頻而不是在實驗室桌子上推方塊——哪怕做家務的視頻背后需要雇一個人在背后手動操作。對此我的看法是,目前行為克隆路線解決的主要是靈巧性而不是泛化性問題,難以帶來通用機器人但也很重要。目前很多流水線上的任務就符合模仿學習的適用條件,且具有極高商業價值,從業者并不一定要刻意追求通用機器人。[水印,原文出自https://boyuan.space/]

如果算一筆賬,通用機器人公司投入大量金錢去用模仿學習的思路采集機器人大模型的數據,確實用上一段落提到的方法有可能采集到指令微調所需要的數據規模的一部分 (Llama3的指令微調用了一千萬條人工標注的數據,這里類比為一千萬個不同任務的機器人數據),但也千萬別忽略了用于預訓練的數據可能是指令微調的千千萬萬倍。

因此也有很多學者認為行為克隆本身無法帶來通用機器人,并以泛化性為核心進行研究。當我在談論機器人缺乏數據的時候,我指代的是我們缺乏包含動作模態的數據。然而我們可以退而求其次通過大量其他模態的數據去獲得動作。舉個例子,雖然SORA這樣的視頻模型不直接輸出手指頭每個關節轉了多少度這樣的信息,但它生成的視頻仍然包含了大量人類動作的信息,可以被人體姿態估計提取。

如果你進入到一個新的場景中去,假設視頻預測模型足夠好,它就能根據新場景的圖片和文字的任務描述去生成帶有技能的視頻,例如MIT和Google的UniPi。不光如此,當視頻模型與文字模型結合的時候,我們就擁有了一個(不嚴謹意義上的)世界模型,可以和大語言模型一樣用搜索(search)產生數據自我提升自我學習,而不只是單步策略policy。世界模型甚至可以與基于模型的強化學習(model based reinforcement learning) 結合。正是因為視頻數據取之不竭,我作為一個具身智能學者在過去一年里也短暫地放下硬件把自己的科研方向轉移到對視頻的探索上,讓視頻模型不光能生成好看的藝術視頻還能在機器人需要的物理規律和任務上有好的表現。[水印,原文出自https://boyuan.space/]

除了視頻世界模型,大規模強化學習也是有可能帶來泛化性的路線。作為曾經的強化學習研究者,我曾經很長一段時間都對強化學習的兩大問題感到絕望——需要人工設計的場景模擬和需要人工設計的獎勵函數。如果要讓機器人在一個房間里學會一個任務,我就需要手動給這個房間建模輸入到模擬器里,并且設計一個好的獎勵函數告訴機器人它在某一次嘗試中做的有多好。這兩者曾經都需要極其大量的人工參與,根本不能大規模鋪開到泛化所需要的場景和任務數量。

但是生成式人工智能改變了這一切——我們現在可以很容易地生成大量3D物體,也逐步能夠生成大量場景。多模態模型雖然還很孱弱,但是在一些任務上已經標記任務的成功與否,或者把大任務拆分成小任務讓智能體學習動作,甚至和我之前論文里那樣標注更加細節的設計到距離等的非稀疏獎勵函數。GenSim已經展示了生成簡單的機器人任務,而當3D場景生成成熟時,VLM足夠便宜時,我們將看到真正讓人驚艷的大規模強化學習。模仿學習也很容易與強化學習增強其效果。

在此之外,傳統的機器人動作規劃(motion planning)對解決通用機器人的數據問題也至關重要。雖然很很多靈巧任務必須通過人產生的數據(關節到關節演示或視頻)學習,這些靈巧任務中很大一部分子任務確實花在非常基礎的接近物體(reach), 接觸物體(contact),移動物體和躲避障礙上。這些子任務的數據完全可以靠動作規劃生成進行預訓練,節約人工的時間。例如,波士頓動力的spot機器狗可以非常可靠地自動撿起放在不同環境里的奇形怪狀的物體,且不會撞到障礙物,這種泛化性如果要用行為克隆達到會需要極其夸張的人工數據采集。

上一段講大規模強化學習時已經提到了未來生成式AI生成場景的潛力,而有了這些場景之后把強化學習替換為動作規劃可能會達起到更高的效率。記得在我申請PhD時,一位教授曾在面試中問我怎么看待end2end(端到端)的方法在機器人中的應用。我給出的解答是,數據足夠的情況下端到端會做的很好,然而我們需要先花數十年用模塊化的方法去分析實踐形成足夠好的數據閉環。這個思路在特斯拉的自動駕駛中獲得了很好的驗證——在數據不夠的時候,規劃算法視覺網絡模塊化地結合可以先讓車跑起來,在一定時間后用產生的數據與用戶數據混合在一起訓練端到端自動駕駛,孕育了FSD12。我相信在通用機器人中動作規劃也會在前期起到相同重要的作用。

我可以負責任地告訴大家具身智能一定是下一個一百年最令人激動的技術,并且我們在有生之年很有希望見證通用機器人的誕生。但也正因為我太熱愛這個領域了,我也更愿意看到社會細水長流地投入通用機器人的發展——看科研工作者如我導師Russ所說的那樣,“可以以結果為導向的科研,但不可以網紅視頻為導向”;看到政府和投資人在長線看好具身智能的同時,不因為硬件公司的融資需要而盲目相信機器人大模型;看到創業者勇往直前,用細分領域的成功和硬件的進步為真正的通用機器人鋪路。而我自己也愿意用自己的一生給世界帶來真正的通用機器人。

2024/06/16 陳博遠 記于前往西雅圖的航班上

本文出自我的主頁,轉載請包含原文鏈接:https://boyuan.space/blogs/jush

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-02-14 17:25:28

2024-06-04 09:25:51

2024-12-19 14:44:22

2025-03-07 10:24:43

2024-08-09 09:10:33

2024-07-11 11:43:56

2022-06-29 14:49:43

計算機視覺智能

2018-06-05 15:02:32

2021-01-20 15:25:11

人工智能機器人失業

2019-08-20 09:16:39

6G網絡1G

2025-04-25 02:30:00

機械臂大模型多模態

2024-08-29 08:02:32

2024-09-27 09:48:28

2024-01-25 15:48:56

2024-01-16 11:07:12

人工智能AI智能生活

2023-11-06 11:29:02

機器人視覺

2023-05-06 12:12:28

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲黄色片免费观看 | 欧美一区二区在线观看 | 欧美在线资源 | 男人天堂网站 | 成人精品一区二区 | 天天色天天射天天干 | 国产做a爱片久久毛片 | 91在线精品视频 | 精品九九久久 | 亚洲精品久久 | 91色在线| 成人国产精品色哟哟 | 狠狠干天天干 | 精品日韩一区二区 | www.国产.com | 日本不卡一区二区三区在线观看 | 久久97精品 | 久久伦理电影 | 欧美精品1区2区3区 精品国产欧美一区二区 | 欧美精品久久久 | 久久精品视频免费看 | 在线色网 | 丁香久久 | 超碰精品在线 | 人人做人人澡人人爽欧美 | 国产一区二区三区在线 | 日干夜干 | 亚洲 自拍 另类 欧美 丝袜 | 中日韩毛片 | 夜夜爽99久久国产综合精品女不卡 | 日韩三级在线 | 亚洲精品一区国语对白 | 青青草在线视频免费观看 | 久久噜| 亚洲国产精品一区二区第一页 | 粉嫩一区二区三区国产精品 | 天天弄天天操 | av综合站 | 怡红院免费的全部视频 | 亚洲成人精品国产 | 久久精品视频在线观看 |