成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器人策略學習的Game Changer?伯克利提出Body Transformer

人工智能 新聞
過去幾年間,Transformer 架構已經取得了巨大的成功,同時其也衍生出了大量變體,比如擅長處理視覺任務的 Vision Transformer(ViT)。本文要介紹的 Body Transformer(BoT) 則是非常適合機器人策略學習的 Transformer 變體。

我們知道,物理智能體在執行動作的校正和穩定時,往往會根據其感受到的外部刺激的位置給出空間上的響應。比如人類對這些刺激的響應回路位于脊髓神經回路層面,它們專門負責單個執行器的響應。起校正作用的局部執行是高效運動的主要因素,這對機器人來說也尤為重要。

但之前的學習架構通常都沒有建立傳感器和執行器之間的空間關聯。鑒于機器人策略使用的架構基本是為自然語言和計算機視覺開發的架構,它們常常無法有效地利用機器人機體的結構。

不過,Transformer 在這方面還是頗具潛力的,已有研究表明,Transformer 可以有效地處理長序列依賴關系,還能輕松地吸收大量數據。Transformer 架構原本是為非結構化自然語言處理(NLP)任務開發的。在這些任務中(比如語言翻譯),輸入序列通常會被映射到一個輸出序列。

基于這一觀察,加州大學伯克利分校 Pieter Abbeel 教授領導的團隊提出了 Body Transformer(BoT),增加了對機器人機體上的傳感器和執行器的空間位置的關注。

圖片


  • 論文標題:Body Transformer: Leveraging Robot Embodiment for Policy Learning
  • 論文地址:https://arxiv.org/pdf/2408.06316v1
  • 項目網站:https://sferrazza.cc/bot_site
  • 代碼地址:https://github.com/carlosferrazza/BodyTransformer

具體來說,BoT 是將機器人機體建模成圖(graph),其中的節點即為其傳感器和執行器。然后,其在注意力層上使用高度稀疏的掩碼,以防止每個節點關注其直接近鄰之外的部分。將多個結構相同的 BoT 層連接起來,就能匯集整個圖的信息,這樣便不會損害該架構的表征能力。BoT 在模仿學習和強化學習方面都表現不俗,甚至被一些人認為是策略學習的「Game Changer」。

Body Transformer

如果機器人學習策略使用原始 Transformer 架構為骨干,則通常會忽視機器人機體結構所提供的有用信息。但實際上,這些結構信息能為 Transformer 提供更強的歸納偏置。該團隊在利用這些信息的同時還保留了原始架構的表征能力。

Body Transformer(BoT)架構基于掩碼式注意力。在這個架構的每一層中,一個節點都只能看到其自身和其直接近鄰節點的信息。如此一來,信息就會依照圖的結構而流動,其中上游層會根據局部信息執行推理,下游層則能匯集更多來自更遠節點的全局信息。

圖片

如圖 1 所示,BoT 架構包含以下組件:

1.tokenizer:將傳感器輸入投射成對應的節點嵌入;

2.Transformer 編碼器:處理輸入嵌入并生成同樣維度的輸出特征;

3.detokenizer:解除 token 化,即將特征解碼成動作(或用于強化學習批評訓練的價值)。

tokenizer

該團隊選擇將觀察向量映射成局部觀察構成的圖。

在實踐中,他們將全局量分配給機器人機體的根元素,將局部量分配給表示對應肢體的節點。這種分配方式與之前的 GNN 方法類似。

然后,使用一個線性層將局部狀態向量投射成嵌入向量。每個節點的狀態都會被饋送給其節點特定的可學習的線性投射,從而得到一個包含 n 個嵌入的序列,其中 n 表示節點的數量(或序列長度)。這不同于之前的研究成果,它們通常僅使用單個共享的可學習的線性投射來處理多任務強化學習中不同數量的節點。

BoT 編碼器

該團隊使用的骨干網絡是一個標準的多層 Transformer 編碼器,并且該架構有兩種變體版本:

  • BoT-Hard:使用一個反映該圖結構的二元掩碼來掩蔽每一層。具體來說,他們構建掩碼的方式是 M = I_n + A,其中 I_n 是 n 維單位矩陣,A 是對應于該圖的鄰接矩陣。圖 2 展示了一個示例。這讓每個節點僅能看到其自身和其直接近鄰,并且能為該問題引入相當可觀的稀疏性 —— 從計算成本角度看,這特別有吸引力。

圖片

  • BoT-Mix:將帶有掩碼式注意力的層(如 BoT-Hard 一樣)與帶有無掩碼式注意力的層交織在一起。

detokenizer

Transformer 編碼器輸出的特征會被饋送給線性層,然后被投射成與該節點的肢體關聯的動作;這些動作是根據相應執行器與肢體的接近程度來分配的。同樣,每個節點的這些可學習的線性投射層是分開的。如果將 BoT 用作強化學習設置中的批評架構,則 detokenizer 輸出的就不再是動作,而是價值,然后在機體部位上取平均值。

實驗

團隊在模仿學習和強化學習設置中評估了 BoT 的性能。他們維持了與圖 1 相同的結構,只用各種基線架構替換 BoT 編碼器,以確定編碼器的效果。

這些實驗的目標是解答以下問題:

  • 掩碼式注意力是否能提升模仿學習的性能和泛化能力?
  • 相比于原始的 Transformer 架構,BoT 是否能表現出正面的規模擴展趨勢?
  • BoT 是否與強化學習框架兼容,有哪些合理設計選擇可以盡可能地提升性能?
  • BoT 策略是否可以應用于真實世界機器人任務?
  • 掩碼式注意力在計算方面有哪些優勢?

模仿學習實驗

團隊在機體跟蹤任務上評估了 BoT 架構的模仿學習性能,該任務是通過 MoCapAct 數據集定義的。

結果如圖 3a 所示,可以看到 BoT 的表現總是優于 MLP 和 Transformer 基線。值得注意的是,在未曾見過的驗證視頻片段上,BoT 相對于這些架構的優勢還會進一步增大,這證明機體感知型歸納偏置能帶來泛化能力的提升。

圖片

而圖 3b 則表明 BoT-Hard 的規模擴展性很不錯,相較于 Transformer 基線,其在訓練和驗證視頻片段上的性能都會隨著可訓練參數量的增長而增長這進一步表明 BoT-Hard 傾向于不過擬合訓練數據,而這種過擬合是由具身偏置引起的。下面展示了更多實驗示例,詳見原論文。

圖片


圖片

強化學習實驗

該團隊在 Isaac Gym 中的 4 個機器人控制任務上評估了 BoT 與使用 PPO 的基線的強化學習性能。這 4 個任務分別是:Humanoid-Mod、Humanoid-Board、Humanoid-Hill 和 A1-Walk。

圖 5 展示了 MLP、Transformer 和 BoT(Hard 和 Mix)在訓練期間的評估 rollout 的平均情節回報。其中,實線對應于平均值,陰影區域對應于五個種子的標準誤差。

圖片

圖片

結果表明,BoT-Mix 的性能在樣本效率和漸近性能方面始終優于 MLP 和原始 Transformer 基線。這說明將來自機器人機體的偏置整合進策略網絡架構是有用的。

同時,BoT-Hard 在較簡單的任務(A1-Walk 和 Humanoid-Mod)上的表現優于原始 Transformer,但在更困難的探索任務(Humanoid-Board 和 Humanoid-Hill)上表現卻更差??紤]到掩碼式注意力會妨礙來自遠處機體部分的信息傳播,BoT-Hard 在信息通信方面的強大限制可能會妨礙強化學習探索的效率。

真實世界實驗

Isaac Gym 模擬的運動環境常被用于將強化學習策略從虛擬遷移到真實環境,并且還不需要在真實世界中進行調整。為了驗證新提出的架構是否適用于真實世界應用,該團隊將上述訓練得到的一個 BoT 策略部署到了一臺 Unitree A1 機器人中。從如下視頻可以看出,新架構可以可靠地用于真實世界部署。

圖片

計算分析

該團隊也分析了新架構的計算成本,如圖 6 所示。這里給出了新提出的掩碼式注意力與常規注意力在不同序列長度(節點數量)上的規模擴展結果。

圖片

可以看到,當有 128 個節點時(相當于擁有靈巧雙臂的類人機器人),新注意力能將速度提升 206%。

總體而言,這表明 BoT 架構中的源自機體的偏置不僅能提高物理智能體的整體性能,而且還可受益于架構那自然稀疏的掩碼。該方法可通過充分的并行化來大幅減少學習算法的訓練時間。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-26 15:43:00

訓練數據機器人

2024-10-29 15:20:00

強化學習模型

2021-01-04 09:18:36

機器人人工智能系統

2025-05-21 08:53:00

2022-03-23 10:52:07

機器人神經網絡系統

2025-05-09 08:50:00

機器人訓練AI

2025-01-22 15:21:00

2018-10-09 14:00:41

SQL深度學習神經網絡

2022-06-30 17:53:56

機器狗智能

2019-01-15 13:14:03

機器人算法SAC

2024-01-31 13:51:00

模型數據

2021-07-12 13:02:50

機器人人工智能算法

2024-02-21 12:20:00

AI訓練

2025-04-23 09:10:00

AI系統模型

2022-03-28 13:25:42

AI扶貧機器之心

2022-01-26 10:31:25

自動駕駛軟件架構

2025-06-25 16:09:40

機器人AI訓練

2022-06-09 15:35:48

深度學習AI

2018-12-20 11:12:44

機器人算法伯克利

2024-11-04 14:35:00

AI機器人
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 台湾av在线 | 91在线观看免费视频 | 日韩 欧美 综合 | 久久999| 亚洲一区二区久久 | 色999视频 | av av在线 | 色眯眯视频在线观看 | 99这里只有精品 | 精品欧美乱码久久久久久1区2区 | 九九色综合 | 国产成人在线播放 | 逼逼网 | 黄色毛片免费看 | 免费三级网站 | 欧美日韩在线观看一区二区三区 | 国产伦一区二区三区四区 | 久久精品国产99国产精品 | 午夜手机在线视频 | 91视视频在线观看入口直接观看 | 99久久国产精 | 一区二区三区国产 | 日本久久精品视频 | 欧美视频1区| 啪啪精品 | 国产精品无 | 美女毛片| 91网站在线观看视频 | 精品伊人 | 91在线一区 | 中文字幕 国产精品 | a级毛片国产 | 成人性视频免费网站 | 最新国产精品精品视频 | 久久国内 | 亚洲成人一级片 | 99国产精品99久久久久久 | 国产高清不卡 | 日韩有码一区 | 日韩精品 | 亚洲一区国产精品 |