成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降

發布于 2024-12-2 13:27
瀏覽
0收藏

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

文章鏈接:https://arxiv.org/pdf/2411.02359
項目鏈接:https://github.com/yueyang130/DeeR-VLA

亮點直擊

  • 提出動態早退出機制 DeeR:框架基于動態神經網絡的思想,能自動調整 MLLM 模型的大小,根據機器人面臨的實際情況動態激活模型所需的層數,減少不必要的計算消耗。
  • 實現高效的資源利用:DeeR 在推理過程中對不同復雜度的情境適應性地分配計算資源,簡單場景下使用較小的模型以節省資源,復雜場景下則調用更大的模型。
  • 靈活的計算成本控制:DeeR 提供了可調的早退出準則,用戶可以根據計算資源的需求(如功耗、延遲或 GPU 內存使用)在線調整終止標準,實現靈活的資源管理。
  • 性能優化與資源節約顯著:在 CALVIN 基準測試中,DeeR 實現了計算成本 5.2-6.5 倍的降低。


與其他 SOTA 方法相比,在僅使用 2GB GPU 內存的條件下保持競爭力。這表明 DeeR 能在資源有限的平臺上高效運行,有望推動多模態大模型在機器人領域的廣泛應用。

總結速覽

解決的問題

當前多模態大模型 (MLLMs) 在理解復雜人類指令并執行各種任務方面展現出強大能力,但在實際機器人中的應用受限于其對計算能力和內存的高需求,難以在資源有限的機器人平臺上有效運行。

提出的方案

提出了一個動態早退出框架,稱為DeeR-VLA (Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model) ,能夠根據不同情境自動調整激活模型的大小,從而減少不必要的計算負擔。此方案采用多出口結構,允許模型在適當的時機結束處理,避免冗余計算。

應用的技術

  • 多出口架構:使得模型可在特定情境下提前結束處理,減少計算消耗。
  • 早退出算法:根據預設的計算資源需求(如平均計算成本、峰值計算消耗及 GPU 內存使用)制定早終止標準,確保 DeeR 在不同資源限制下高效運行。
  • 時間信息集成的訓練方法:在多出口架構上集成時間信息以合理預測動作。

達到的效果

在 CALVIN 機器人操作基準測試中,DeeR 實現了 5.2-6.5 倍的計算成本降低和 2-6 倍的 GPU 內存消耗減少,同時保持了性能不變。這些提升使得 DeeR 能在資源有限的條件下高效運行。

動態早退出的機器人 MLLM

MLLM 強大的任務指令理解和視覺定位能力展示了其在語言指導的多任務機器人操作方面的巨大潛力。然而,現有工作通常計算量巨大,因為機器人動作是通過推理 MLLM 的所有層來獲得的。在每個時間步,這一過程可能會激活數十億的參數,導致大量的計算和內存需求,從而帶來顯著的延遲和功耗。這些低效通常是實際機器人應用的重要瓶頸。


概述 通過利用一個有趣的觀察來解決這個問題:在控制機器人完成各種任務的過程中,相對“簡單”的情境占據了大部分,這些情境通常只需要較小的模型即可獲得正確的機器人動作(如下表 1 所示)。受這一現象的啟發,本文提出了機器人 MLLM 的動態早退出方法 (DeeR),旨在通過為每種情況動態采用適當的 MLLM 大小來提高機器人 MLLM 系統的計算效率。具體而言,首先開發了一種具有多個中間出口的新型 MLLM 架構。因此,給定一個輸入,一旦激活了足夠數量的模型參數,就可以立即獲取適當的機器人動作,從而避免進一步的冗余計算。然后,在任意指定的平均計算成本和峰值計算成本或 GPU 內存開銷的需求下,為 DeeR 建立了早終止準則。最后,提出了本文模型的定制訓練算法,展示了如何在這一動態網絡的基礎上集成時間信息并合理預測機器人動作。

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

機器人多出口架構

首先引入了一個具有多個中間出口的 MLLM 架構,能夠根據機器人面臨的不同情況動態調整 MLLM 的大小。

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

自適應推理

本節展示了 DeeR 如何在預定義的計算和 GPU 內存限制下,通過自適應地激活適當大小的 MLLM 來高效地執行機器人任務。首先討論 DeeR 所使用的終止準則,該準則旨在在較簡單的場景中激活較小的模型,而在更具挑戰性的條件下激活較大的模型。接下來,探討一種有效的資源分配策略,以應對計算和 GPU 內存的限制。DeeR 的推理過程如下圖 1 所示。

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

滿足以下約束條件:

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

使用在線交互求解。如果可以與真實環境交互,可以利用在線學習算法,通過關于成功率的反饋逐步調整閾值。為了在預算約束下求解方程 (4),實現了貝葉斯優化。構造的貝葉斯優化目標函數如下,以最大化:

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

訓練算法

訓練動態機器人 MLLM 并非易事。特別是,網絡架構的動態調整導致了訓練和推理之間的差異。在推理過程中,使用確定性的標準在每個時間步選擇適當的中間特征。然而,在訓練過程中,沒有明確定義的終止標準,而且不知道特征在各個出口之間的分布。為了有效地集成時間信息,提出了一個量身定制的訓練算法。

使用任意大小的模型進行學習為了減少上述差異,在訓練期間引入了一種簡單而有效的隨機采樣策略。如上面圖 1 右側的“螺旋”曲線所示,本文的方法涉及在每個時間步從 1 到 N的出口索引中進行采樣。實現了兩種采樣策略:

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

通過以下損失函數聯合訓練輔助頭和 MLLM:

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

實驗

設置 本節進行實驗驗證 DeeR 作為一種高效機器人策略的有效性。基于 RoboFlamingo++ 代碼庫構建 DeeR。為了公平比較,保留了 RoboFlamingo++ 中的超參數,唯一的區別是 LLM 層數和提出的動態早期退出范式。將 DeeR 在預算與性能之間進行比較,涉及類似規模的 RoboFlamingo++ 模型和其他最先進的基準。


效率衡量 在現代基礎模型中,LLM 通常在 MLLM 中扮演著關鍵角色,負責推理和問題解決任務,且通常包含了模型的大部分參數。本文主要聚焦于提高 LLM 在機器人領域的效率。為了方便進行針對性的比較,實驗中報告了 LLM 推理過程中的浮點運算數(FLOPs)和 GPU 內存使用量。


基準測試 使用 CALVIN 長時域多任務語言控制基準(LH-MTLC)作為測試平臺,測試學習到的多任務、語言條件策略。在 CALVIN 中,目標是讓智能體成功完成任務序列,每個任務序列包含五個子任務,并用自然語言描述。根據以往的工作[10, 12, 13, 9],模型的性能是通過在 1000 個任務序列中,成功完成的任務數的平均值來評估的(范圍從 0 到 5)。


數據集 CALVIN 數據集分為四個環境分割,分別標記為 A 到 D,每個分割都有獨特的背景和物體配置。每個分割包含超過 200 萬個機器人操作軌跡(稱為 "ALL")。其中,大約 1%(約 2.4 萬個軌跡)帶有語言指令(稱為 "LANG")。在訓練 DeeR 時,僅使用 "LANG" 數據。在本文的研究中,為了全面評估其模仿和泛化能力,在以下三種設置下評估模型:

  1. D→D:在單一環境中訓練和評估。
  2. ABC→D:零樣本多環境。
  3. ABCD→D:多環境。

基準模型 為了進行全面比較,考慮了多個基準模型。包括了 HULC 和 SPIL 作為依賴于層次化規劃和技能先驗的代表方法。此外,還評估了使用預訓練或基礎模型的模型,例如 RT-1、SuSIE 、GR-1 和 RoboFlamingo。RoboFlamingo++ 是重新實現的 RoboFlamingo。

主要結果

Flamingo 3B的結果 Flamingo 3B的實驗結果如下圖3所示。在每個CALVIN設置中,僅訓練了一個模型。在給定預定義的總計算預算B、最大浮點運算數G和GPU內存M后,通過調整終止閾值來遵守這些預算,終止閾值通過解方程(4)并使用CALVIN數據集來確定。然后,評估DeeR在不同閾值下的平均成功長度,并繪制曲線。可以觀察到,DeeR始終能在所有設置中減少LLM的計算成本。例如,在設置D→D中,DeeR在平均成功長度為2.71的情況下,平均FLOPs減少了5.9倍,最大FLOPs和GPU內存分別減少了2倍。令人驚訝的是,DeeR-S在僅使用2GB內存的情況下,仍能實現相對較高的性能,這對于大多數用戶來說是可承受的。因此,DeeR展示了使更廣泛的用戶能夠高效地使用LLM操作機器人系統的潛力。

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

與最先進基準的比較 下表2中,將DeeR模型與最近的最先進方法進行了基準測試,特別是在CALVIN基準測試中。通過分析表明,DeeR與使用額外本體感知信息的最新SOTA模型GR-1相比,達到了具有競爭力的性能。與沒有使用基礎模型的傳統模仿學習方法相比,DeeR表現出更優越的性能,特別是在泛化場景(ABC→D)中。此外,DeeR在減少計算的同時,稍微優于RoboFlamingo。

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

通過在線交互求解閾值

當可以與環境進行交互時,使用貝葉斯優化來求解方程(4)。如上表2所示,發現通過在線交互求解閾值,在低數據環境(D→D)和對未見情況的泛化(ABC→D)等挑戰性場景中特別有效。

DeeR的可擴展性

在OpenFlamingo 9B 之上開發了DeeR,以評估其在擴展基礎模型時的效率。下圖4中的結果表明,DeeR在保持相同性能的情況下,減少了1.8至5.7倍的計算量,并且峰值FLOPs和內存減少了2.7到4.0倍。

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

可視化

下圖5展示了DeeR的滾動效果以及終止點。具有較高退出索引的情況被DeeR視為“更難”的任務,因此會分配更多的計算資源。可以觀察到,“困難”情況通常涉及相對復雜和精細的操作,而“簡單”情況通常涉及朝目標物體的直接移動。例如,在堆疊積木的任務中(第1行),從桌面提起藍色積木(第1張圖)并將其放置到粉色積木上(第4和第5張圖)需要更多的計算,而簡單地朝粉色積木移動(第2和第3張圖)只需要最小的LLM來處理。在第2行和第3行中也觀察到類似的情況,朝目標物體移動的階段需要的計算量最小,而推動燈泡開關或移動滑動門則是復雜的操作,需要更多的LLM處理。

多模態大模型在具身智能領域里程碑工作!清華&字節開源DeeR-VLA:讓算力內存雙降-AI.x社區

結論與局限性

本文提出了用于機器人MLLM的動態提前退出(DeeR)框架,旨在根據機器人代理所遇到的每個情況的具體需求動態配置MLLM的大小。具體來說,提出了一種新型的具有多個中間退出的MLLM架構。此外,為DeeR建立了基于動作一致性的提前終止標準,并通過數據集或在線交互解決閾值問題。本文設計了一種定制的訓練方法,將時間信息集成到這個多退出框架中,以增強機器人控制能力。大量的機器人實驗表明,DeeR顯著減少了LLM的計算成本和GPU內存使用,突顯了其在資源受限的平臺上幫助更廣泛的用戶管理機器人操作的潛力。


盡管本文的研究顯示了有希望的結果,但也存在一些局限性。本文專注于提高機器人執行中的LLM效率,因為LLM占據了大部分參數和GFLOPs。然而,視覺編碼器的計算成本也是顯著的。隨著更高效、輕量級的視覺編碼器的開發,這一局限性將得到緩解。此外,本文的實驗僅限于一個模擬基準。未來的工作將致力于改善整個基于MLLM的機器人系統在真實環境中的推理效率。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/EgpO2TTtmqJu6pIrDDbftA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美激情一区二区三级高清视频 | 色伊人久久 | 天堂综合 | 国产成人网 | 国产在线高清 | 宅女噜噜66国产精品观看免费 | 日韩在线中文字幕 | 男人阁久久 | 久久国产精品亚洲 | 国产综合在线视频 | 天天操天天操 | 在线成人| 福利视频1000 | 欧美aⅴ片 | 一本一道久久a久久精品综合蜜臀 | 国产欧美日韩在线 | 欧美精品一区二区免费 | 一区二区在线观看免费视频 | 久久久久久国产精品 | 亚洲在线免费观看 | 日日操夜夜操天天操 | 99久久久国产精品免费消防器 | 国产精品精品 | 九九在线视频 | 日韩av三区 | 久久国产精品一区 | 一级高清 | 男人天堂99| 国产精品高清在线 | 免费黄色片在线观看 | 亚洲天天干 | 日本午夜精品一区二区三区 | 999久久久精品 | 亚洲成人av在线播放 | 黄a在线播放 | 欧美第一区 | 免费观看www7722午夜电影 | 毛片在线免费 | 日韩视频在线观看一区二区 | 国产伦精品一区二区三区照片91 | 国产成人精品久久二区二区91 |