成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大型語言模型(LLM)在機器人領域的機遇、挑戰與展望 原創 精華

發布于 2024-7-10 07:59
瀏覽
0收藏

?摘要—大型語言模型(LLMs)經歷了顯著的擴展,并且越來越多地被整合到各個領域中。特別是在機器人任務規劃領域,LLMs利用其先進的推理和語言理解能力,根據自然語言指令制定精確高效的行動計劃。然而,對于具體化的機器人任務,即機器人與復雜環境互動的任務,僅文本的LLMs常常因為缺乏與機器人視覺感知的兼容性而面臨挑戰。本研究提供了一個全面的概述,介紹了LLMs和多模態LLMs如何被整合到各種機器人任務中。此外,我們提出了一個框架,該框架利用多模態GPT-4V通過結合自然語言指令和機器人視覺感知來增強具體化任務規劃。我們基于多樣化數據集的結果顯示,GPT-4V有效地提高了機器人在具體化任務中的性能。對LLMs和多模態LLMs在各種機器人任務中的廣泛調查和評估豐富了對以LLM為中心的具體化智能的理解,并為彌合人-機器人-環境交互中的差距提供了前瞻性的見解。

I. 引言

隨著預訓練模型在模型規模和數據量上的擴展,一些大型預訓練模型在一系列復雜任務上展現出了顯著的能力[1],[2]。大型語言模型(LLMs)因其卓越的上下文涌現能力[2]–[10]在各個領域引起了廣泛關注。這種新興能力以前所未有的方式賦能了人工智能算法,重塑了人們使用人工智能算法的方式,并促使人們重新評估人工通用智能(AGI)的可能性。

隨著LLMs的快速發展,指令調整和對齊調整已成為適應特定目標的主要方法。在自然語言處理(NLP)領域,LLMs在一定程度上可以作為語言相關任務的通用解決方案[3],[5],[11]–[13]。這些基于變換器的大型模型在多個領域取得了非凡成就[14]–[17],深刻改變了人工智能的最新狀態[3],[12],[18]–[26]。研究范式也轉向了解決子領域特定問題。在計算機視覺(CV)領域,研究人員也在開發類似于GPT-4和Gemini的大型模型[27],[28],這些模型融合了視覺和語言信息,從而支持多模態輸入[29]。這種增強LLMs的策略不僅提高了它們在下游任務中的性能,而且通過確保與人類價值觀和偏好的一致性,對機器人學的發展具有重要的指導意義。這種方法已在眾多領域得到廣泛采用[7],[29]–[32],甚至在卷積神經網絡(CNNs)是主要技術[33]–[40]的領域也是如此。

LLMs處理和內化大量文本數據的能力為提高機器的理解和自然語言分析能力提供了前所未有的潛力[41],[42]。這擴展到了理解手冊和技術指南等文檔,并將這些知識應用于進行連貫、準確和與人類一致的對話[43]–[45]。通過對話,自然語言指令從文本提示轉化為機器可理解的代碼,觸發相應的動作,從而使機器人在適應各種用戶命令方面更加靈活和適應性強[46]–[48]。將現實世界的傳感器模態整合到語言模型中,有助于建立單詞和感知之間的聯系,使它們能夠應用于各種特定任務。然而,僅文本的LLMs缺乏對物理世界的體驗性暴露和觀察的經驗性結果,這使得它們在特定環境中的決策制定中難以應用。因此,將多模態性整合到LLMs對于有效執行機器人任務至關重要。此外,機器人學領域呈現出更為微妙的任務變化。與可以從互聯網上獲取大量數據集的NLP和CV不同,獲取用于機器人交互的大型和多樣化數據集是具有挑戰性的[49]。這些數據集通常要么專注于單一環境和對象,要么強調特定任務領域,導致它們之間存在顯著差異。[50]這種復雜性在將LLMs與機器人學整合時帶來了更大的挑戰。

如何克服機器人技術帶來的挑戰,并利用LLMs在其他領域的成就來造福機器人學領域,是本綜述所要解決的核心問題。在本文中,工作的貢獻可以總結為四個主要點:

- 我們仔細調查并綜合現有的LLM機器人文獻,探索三個不同任務類別中的最新進展:規劃、操作、推理。

- 我們總結了LLMs為機器人學領域提供的主要技術方法,檢查了訓練通用機器人策略的潛力,并為該領域的研究人員提供了基礎調查。

- 我們評估了多模態GPT-4V在各種環境和場景中機器人任務規劃的有效性。

- 我們總結了我們調查的主要發現,討論了未來工作中需要解決的突出挑戰,并提出了前瞻性的觀點。

大型語言模型(LLM)在機器人領域的機遇、挑戰與展望 -AI.x社區


圖1. 提出的GPT-4V賦能的具體化任務規劃框架。我們使用視頻數據的初始幀及其對應的文本指令作為輸入。我們的框架利用GPT-4V將指令分解為一系列任務計劃,并從預定義的動作池中選擇相應的表示。同時,我們可以分析與指令相關的目標對象以及指令前后圖像中的環境變化。最后,我們使用GPT-4V比較并評估我們生成的任務計劃與真實計劃的匹配程度。

II. 相關工作

A. 機器人領域的LLM

基于LLMs的機器人學研究領域已經取得了重大進展。這些模型展現出了卓越的自然語言理解和常識推理能力,顯著提升了機器人理解上下文和執行命令的能力。當前的研究集中在利用LLMs解析復雜的上下文和指令,包括解決歧義、消除歧義和理解隱含信息。該領域的關鍵進展包括視覺-語言模型的發展[51]–[53],這些模型顯著提高了視覺問答[54]–[56]和圖像描述[57],[58]等任務的性能。這些進步極大地增強了機器人在物理世界中的推理能力,特別是在復雜命令導航等領域。[59],[60] 通過視覺語言處理系統,機器人能夠理解圖像內容,并將其與相關語言信息(如圖像描述和指令執行)整合。這種多模態信息處理同樣應用于音頻-視覺整合中。LLMs在人-機器人交互中的另一個重大進展是通過互動學習過程實現的,這些過程更好地符合人類的需求和偏好。例如,通過將強化學習與人類反饋相結合,機器人可以持續改進它們的任務執行,通過結合人類指導和大型語言模型,機器人可以更精確地細化指令,從而更好地實現自主學習和環境適應,以實現更準確和有針對性的控制。機器人還可以通過互動學習和適應用戶的行為、偏好和需求,提供更個性化和定制化的交互體驗。這些進步不僅增強了機器人技術的實用性,而且為未來的人與人之間的交互開辟了新的可能性。

B. 使用LLMs進行多模態任務規劃

LLMs領域內的多模態任務規劃構成了人工智能學科的一個復雜交叉點,涉及整合各種不同的數據模態——如文本、視覺和聽覺輸入——以促進更全面和細致的AI驅動分析[61]–[65]。

這種跨學科方法超越了LLMs的傳統界限,后者主要關注文本理解和生成,迎來了一個新時代,在這個時代中,這些模型擅長于解釋、關聯和同時與多個數據流互動。在這個背景下,LLM的角色從單純的語言處理演變為更整合性的功能,綜合并響應復雜的數據交互。在LLMs的多模態任務規劃領域,最近的進步如Inner Monologue和SayCan項目所示,展示了該領域的復雜性和成熟度的增長。Inner Monologue的方法[65]代表了該領域的重大飛躍,因為它整合了來自環境的多模態反饋源。這種整合使得生成更可靠、更具上下文意識的任務規劃成為可能,協調不同的感官輸入以創造對AI周圍環境的更連貫理解。同樣,SayCan的框架[61]為LLM應用引入了一個新維度。該系統將LLMs作為模型的“手和眼睛”的代理,生成最優的長期指令,并有效地評估當前場景中指令的可行性概率。這種方法不僅增強了AI理解和與其直接環境互動的能力,而且還利用LLMs的細致理解來規劃和執行復雜動作序列的長期任務。

Inner Monologue和SayCan中這些先進技術的整合代表了在創建AI系統中邁出了重要的一步,這些系統不僅更加意識到多個數據流,而且還能夠將這些流合成為可操作的智能。這一進展指向了一個未來,AI可以在一個更加動態、上下文意識和自主的方式中導航和與真實世界互動[61],[65]–[67],推動AI驅動創新和跨學科綜合的邊界。

III. 機器人任務的范圍

A. 規劃

1) 自然語言理解:在機器人規劃中,大型語言模型因其先進的自然語言理解能力而表現出色。它們將自然語言指令翻譯成機器人可執行的動作序列,這是機器人規劃的一個關鍵方面[61],[68]。本研究顯示,LLMs能夠僅基于語言指令生成準確的動作序列,即使沒有視覺輸入[69]。然而,當有少量視覺信息時,它們的性能會顯著提高,使它們能夠創建精確的視覺-語義計劃。這些計劃將高級自然語言指令轉化為虛擬代理執行復雜任務的可操作指導。這種能力強調了LLMs整合多模態信息的潛力,從而提高了它們的理解能力。它還展示了它們解釋和整合來自各種模態的信息的能力,從而更全面地理解任務[70]。此外,關于從大型語言模型生成動作序列以進行自然語言理解的研究進一步證實了LLMs在機器人規劃中的有效性。LLMs在解釋與物理環境同步的自然語言命令方面也顯示出巨大的潛力。采用Grounded Decoding方法,它們可以產生與物理模型概率一致的行為序列,展示了該方法在機器人規劃任務中的有效性[71]。

在復雜序列任務規劃方面的研究突出了LLMs能力的重大進步。Text2Motion的研究顯示,LLMs不僅擅長處理語言信息,而且能夠解決技能序列中的依賴關系[72]。這是通過幾何上可行的規劃實現的,標志著在解釋抽象指令和理解復雜任務結構方面的一個重要進步。此外,LLM-Planner研究通過將LLMs與傳統規劃器集成,增強了LLMs在機器人規劃中的自然語言理解能力[73]。這種協同作用展示了如何利用LLMs的NLP能力來提高規劃任務的效率和精確性。此外,LLM+P利用傳統規劃器的能力,使用規劃領域定義語言(PDDL)和問題提示來為LLMs創建特定任務的問題文件[44]。這種整合顯著提高了LLMs在處理長期規劃任務方面的有效性。另外,SayPlan通過集成經典路徑規劃器來解決規劃視野問題。通過這樣做,SayPlan能夠將從抽象和自然語言指令派生出的大規模、長期任務計劃具體化,使移動操作機器人能夠成功執行它們[74]。此外,LLMs在搜索算法中作為啟發式策略以及作為常識知識的儲備庫方面顯示出潛力。LLMs的這種雙重角色不僅增強了這些算法內的推理能力,而且還有助于預測潛在結果。這種方法充分利用了LLMs的潛力,利用它們先進的推理能力有效地規劃復雜任務[66]。這種雙重應用強調了大型語言模型在任務規劃和問題解決中的廣泛和多功能潛力。

關于LLMs的研究展示了它們解析和理解自然語言的顯著能力。這種能力超越了單純的文本匹配,達到了深刻的語義理解,包括任務的目的和上下文。LLMs的一個關鍵方面是將它們理解的指令轉化為機器人可執行的動作序列,這是機器人任務規劃的一個必要特征。LLMs顯著提高了指令生成的質量和適應性,使得能夠創造出既具有上下文意識又特定于環境的復雜動作序列。這些模型在處理各種任務規劃復雜性和類型方面表現出多樣性,從簡單的物理互動到復雜的長期序列規劃。研究突出了LLMs作為獨立決策者和其他模態及規劃算法的協作者的潛力。這種協作在解釋自然語言和推進機器人規劃方面至關重要。隨著研究的進展,預計LLMs在機器人學和自動化系統領域將發揮越來越重要的作用。

2) 復雜任務推理和決策:在復雜任務推理和決策領域,由LLMs賦能的機器人表現出顯著的熟練度。這些基于LLM的機器人規劃任務已經顯著超越了單純的文本生成和語言理解的范疇。最近的研究突出了語言模型在處理復雜任務、進行邏輯推理、做出明智的決策和參與互動學習方面的巨大能力[3],[75]。這些突破不僅擴展了我們對基于LLM的機器人規劃潛力的理解,而且為創新的實際應用打開了大門。

在探索預訓練語言模型(PLMs)在交互式決策中的應用時,研究表明目標和觀察被轉化為嵌入序列,用PLMs初始化網絡。這種策略的泛化能力在多變量環境和監督模態中特別有效[76]。在多模態領域的一個顯著進步是LM-Nav系統的發展[59]。該系統基于PLMs,整合了語言、視覺和動作模型,通過高級自然語言命令指導機器人導航。值得注意的是,它通過合并預訓練的視覺導航、圖像-語言相關性和語言理解模型,減少了對昂貴軌跡注釋監督的依賴。專注于特定環境中的LLMs,研究人員[65]已經檢查了它們在自然語言反饋和復雜任務規劃方面的推理能力。這種能力對于遵循高級任務指令和增強模型在現實世界場景中的應用性至關重要。解決自然語言理解和決策中的一致性容錯問題,創新的ReAct模型[77]克服了交互式設置中語言推理的先前限制。它解決了幻覺生成和錯誤信息傳播等挑戰。通過利用LLMs維持工作記憶和抽象概念化高級目標的潛力,ReAct模型在各種任務中實現了顯著的性能提升。與此同時,為了解決大型語言模型(LLMs)在應用于機器人學時的自信幻覺預測問題,KnowNo[78]為任務完成提供了統計保證,同時在復雜的多步驟規劃場景中最小化了對人類協助的需求。值得注意的是,KnowNo與LLMs無縫集成,無需模型微調,提供了一種輕量級和有前途的不確定性建模方法。這種方法與基礎模型不斷演變的能力保持一致,提供了一種可擴展的解決方案。此外,已經提出了一種涉及預處理錯誤提示的策略,使LLMs能夠提取可執行計劃。這種方法為任務執行中代理的獨立性和適應性提供了新的視角。在多代理協作方面,越來越多地探索將語言模型與動作代理集成。通過將LLMs與在特定環境中執行任務的代理配對,建立了一個由規劃器、執行器和報告器組成的系統。這種安排顯著提高了復雜任務中推理和執行的效率。

大型預訓練語言模型領域正在經歷一個顯著趨勢:這些模型越來越擅長理解和執行復雜任務,與現實世界場景緊密對齊。這一進步不僅強調了預訓練模型的適應性和多功能性,而且預示著下一代AI的到來。隨著這些技術的演進,我們預計創新應用將激增,有望徹底改變各個行業。這些任務的一個關鍵方面是利用LLMs強大的語言理解和生成能力進行復雜推理和決策過程。該領域的每項研究都探索了LLMs在復雜認知功能中的潛力。許多模型采用自監督學習,有些則結合微調以更好地適應特定任務。這種方法使LLMs在下游任務輔助推理中表現出色,從而做出更精確和定制化的決策。盡管LLMs在復雜推理和決策中得到廣泛應用,但具體的技術和方法在任務處理、學習策略和反饋機制方面有所不同。這些模型在多種現實世界情境中得到應用,包括家庭自動化、機器人導航和任務規劃,展示了它們廣泛和不斷發展的實用性。

3)人-機器人交互:在人-機器人交互領域,AGI語言模型的先進推理能力賦予機器人顯著的泛化能力[79]。這使它們能夠適應以前未見環境和任務中的新任務規劃。此外,LLMs的自然語言理解界面促進了與人類的交流,為人-機器人交互開辟了新的可能性[80]。廣泛的研究強調了LLMs在輔助智能任務規劃方面取得的進展,這反過來又增強了多智能體協作通信。研究發現,使用自然語言來提高多智能體合作的效率是一種有效的方法來提高通信效率。一個值得注意的例子是OpenAI的ChatGPT,其在機器人應用中的能力通過嚴格的實驗進行了評估。研究結果顯示,ChatGPT在邏輯、幾何和數學推理等復雜任務方面表現出色,以及空中導航、操作和控制具體化代理[48]。它通過自由形式的對話、解析XML標簽和合成代碼等技術實現了這一點。此外,ChatGPT允許通過自然語言命令進行用戶交互,為開發與人類以自然和直觀方式交互的創新機器人系統提供了重要的指導和見解。同樣,提出了一個利用大規模語言模型進行協作具體化智能的框架[81]。該框架使語言模型能夠用于高效規劃和通信,促進各種智能體和人類之間的協作,共同應對復雜任務。實驗結果表明,這種方法在該領域的傳統方法中表現顯著優越。

B. 操控

1) 自然語言理解:在機器人控制領域,LLMs的自然語言理解能力可以幫助機器人進行常識分析。例如,LLM-GROP展示了如何從LLM中提取語義信息,并將其用作在復雜環境中響應自然語言命令執行多步驟任務和運動規劃器中關于對象放置的常識性、語義上有效的決策[82]。該研究提出了一個將語言置于智能體核心的框架[83]。通過利用這些模型中包含的先驗知識,可以設計出更好的機器人代理,它們能夠在現實世界中直接解決具有挑戰性的任務。通過一系列實驗,展示了該框架如何利用底層模型的知識和功能,以更高的效率和多功能性解決各種問題。同時,該研究引入了Linguistically Conditional Collision Function (LACO),這是一種使用單視圖圖像、語言提示和機器人配置學習碰撞函數的新方法。LACO預測機器人與環境之間的碰撞,使得靈活的條件路徑規劃成為可能[84]。

除了自然語言理解能力外,LLM的強大推理能力也扮演著突出的角色。例如,在VIMA工作[85]中,引入了一種新的多模態提示公式,將不同的機器人操控任務轉化為統一的序列建模問題,并在具有多模態任務和系統泛化評估協議的多樣化基準中實例化。實驗表明,VIMA能夠使用單一模型解決視覺目標實現、一次性視頻模仿和新穎概念基礎等任務,具有強大的模型可擴展性和零樣本泛化能力。同樣,TIP提出了Text-Image Cueing[86],這是一種雙模態提示框架,將LLMs連接到多模態生成模型,以合理生成多模態程序計劃。除了提示方法外,在機器人控制領域,基于預訓練LMs的下游任務微調也是一種常見方法。例如,該工作展示了預訓練的視覺語言表示可以有效提高現有探索方法的樣本效率[87]。R3M研究了如何在不同的人類視頻數據上預訓練視覺表示,以實現下游機器人操控任務的數據高效學習[88]。LIV在大型泛化人類視頻數據集上進行訓練,并在小型機器人數據集上進行微調,微調后在三個不同的評估設置中超越了最先進的方法,并成功執行了現實世界的機器人任務[89]。

這一系列研究共同展示了LLMs和自然語言理解技術在推進機器人智能方面的重要角色,特別是在理解和執行復雜的基于語言的任務方面。這些研究的一個關鍵重點是模型泛化的重要性以及將這些模型應用于不同領域能力。每項研究雖然共享這一共同主題,但在其特定的關注點和應用方法論上有所不同。例如,LLM-GROP專注于語義信息的提取和應用。相比之下,VIMA和TIP專注于無先前示例的多模態處理和學習。此外,微調預訓練LMs的方法旨在提高應用效率和任務特定優化。總的來說,這些研究表明,將復雜的NLP技術與機器學習策略相結合,可以大大提高機器人系統的效率,特別是在其理解和執行復雜任務的能力方面。這一進步是實現機器人操控中更大智能和自主性的關鍵一步。

2) 交互策略:在交互策略領域,TEXT2REWARD框架引入了一種使用LLMs生成交互式獎勵代碼的創新方法[83]。該方法自動產生密集的獎勵代碼,增強了強化學習。此外,通過利用大型語言模型定義可以優化以完成各種機器人任務的獎勵參數,可以有效彌合高級語言指令或糾正與低級機器人行動之間的差距。語言模型生成的獎勵作為中間接口,使得高級指令和機器人的低級行動之間的無縫通信和協調成為可能[90]。此外,VoxPoser展示了一個多功能的機器人操控框架[64],其特點是能夠直接從LLMs中提取可操作性和約束。這種方法顯著提高了機器人對開放式指令和多樣化對象的適應性。通過將LLMs與視覺-語言模型集成,并利用在線交互,VoxPoser高效地學習與復雜任務動態模型互動。LLMs的應用也擴展到了人-機器人交互。LILAC系統通過一個可擴展的[63]、由語言驅動的人機交互機制來實現這一點。它將自然語言話語翻譯成低維控制空間中的可執行命令,使得機器人的精確和用戶友好的指導成為可能。重要的是,每個用戶的糾正都會完善這個控制空間,允許越來越針對性和準確的命令。InstructRL提供了另一個旨在增強人-AI協作的創新框架[91]。它專注于訓練強化學習代理來解釋和執行人類提供的自然語言指令。該系統使用LLMs根據這些指令制定初始策略,引導強化學習代理實現協調的最佳平衡。最后,對于基于語言的人機界面,已經開發了一種新的、靈活的界面LILAC。它允許用戶使用文本輸入和場景圖像改變機器人軌跡[92]。該系統協同預訓練的語言和圖像模型,如BERT和CLIP,使用變換器編碼器和解碼器在3D和速度空間中操縱機器人軌跡。這種方法在模擬環境中證明是有效的,并通過實際應用展示了其實用性。

所有這些技術和方法在不同程度上依賴于先進的語言建模來增強人-機器人交互和機器人控制。它們共同強調了LLMs在解釋和執行人類意圖方面的關鍵作用。每種方法都旨在提高機器人的適應性和靈活性,使它們能夠更有效地處理多樣化的任務和環境。具體來說,TEXT2REWARD專注于生成和優化獎勵代碼,提高了強化學習策略的效力。相反,VoxPoser專注于從LLMs中提取操作符和約束。與此同時,LILAC和InstructRL采用不同的方法來解釋和執行自然語言命令。LILAC優先考慮將話語映射到控制空間,而StructRL致力于訓練強化學習代理理解和遵循自然語言指令。此外,最后討論的基于語言的人機交互研究探討了如何直接從文本和圖像中提取用戶意圖,并將其應用于各種機器人平臺。這一方面使其與其他可能不包含此功能的方法有所不同。總的來說,這些研究標志著將LLMs技術整合到機器人學中的重大進步。雖然它們的應用領域和方法論有不同的焦點,但它們都展示了人工智能創新的潛力。此外,它們為未來人-機器人交互的探索鋪平了道路。

3) 模塊化方法:最近在機器人控制方面的進展強調了模塊化方法,允許創建更復雜和功能豐富的機器人系統。最近的研究突出了這一趨勢的關鍵方面。PROGRAMPORT提出了一個以程序為基礎的模塊化框架,專注于機器人操控[93]。它通過將自然語言的語義結構翻譯成編程元素來解釋和執行語言概念。該框架包括在學習和掌握一般視覺概念和特定任務操作策略方面表現出色的神經模塊。這種結構化方法明顯增強了對視覺基礎和操作策略的學習,提高了對未見樣本和合成環境的泛化能力。接下來,研究人員探索了使用LLMs來加速機器人系統策略適應的方法[94],特別是在遇到新工具時。通過生成幾何形狀和描述性工具模型,然后將這些轉換為向量表示,LLMs促進了快速適應。這種語言信息和元學習的整合在適應不熟悉工具方面表現出顯著的性能提升。

此外,將基于ViLD和CLIP的視覺語言模型NLMap[95]與SayCan框架相結合,導致了更靈活的場景表示。這種結合對于長期規劃特別有效,尤其是在開放世界場景中處理自然語言命令時。NLMap增強了基于LLM的規劃器理解其環境的能力。"Scaling Up and Distilling Down"框架結合了LLMs[96]、基于采樣的規劃器和策略學習的優勢。它自動化了生成、標記和提取豐富的機器人探索經驗到一個多功能的視覺-語言運動策略中。這種多任務策略不僅繼承了長期行為和穩健的操控技能,而且在訓練分布之外的場景中也表現出改善的性能。

MetaMorph介紹了一種基于變換器的方法,用于學習適用于廣泛的模塊化機器人設計空間的通用控制器[97]。這種方法使得機器人形態可以作為變換器模型的輸出。通過在多樣化的形態上進行預訓練,通過這種方法生成的策略展示了對新形態和任務的廣泛泛化能力。這展示了在機器人學中進行廣泛的預訓練和微調的潛力,類似于視覺和語言領域的發展。

在這些研究中的每一項中,都采用了模塊化方法,增強了系統對新任務和環境的靈活性和適應性。這些工作廣泛利用深度學習技術,特別是與LLMs協同作用,以增強機器人系統的理解和決策能力。此外,這些研究的一個重要焦點是應用NLP。這無論是通過直接解釋語言命令,還是通過語言豐富的學習和適應過程都顯而易見。主要目標是提高機器人在新環境和任務中快速泛化和適應的能力。雖然所有研究都采用了深度學習和LLMs,但它們的具體實現和應用是多樣的。有些集中在語言描述和理解上,而其他研究探索視覺和語言的融合。研究目標各不相同,從適應新工具,到長期戰略規劃,到多形態機器人控制的挑戰。盡管技術方法、應用領域和目標任務存在差異,但每項研究都顯著地為推進機器人系統的智能和適應能力做出了貢獻。

C. 推理

1) 自然語言理解:在機器人推理任務領域,基于自然語言理解的LLMs作為一個重要的知識庫,為各種任務提供常識性洞察,這一點至關重要。廣泛的研究表明,LLMs有效地模擬了類似人類的狀態和行為,特別是在研究執行家庭清潔功能的機器人時尤為相關。這種方法偏離了傳統方法,后者通常需要昂貴的數據收集和模型訓練。相反,LLMs利用現成的方法在機器人學中進行泛化,從廣泛的文本數據分析中受益于其強大的總結能力。此外,LLMs的常識推理和代碼理解能力促進了機器人與物理世界之間的聯系。例如,Progprompt在LLMs中引入編程語言特性已被證明可以提高任務性能。這種方法不僅直觀,而且足夠靈活,能夠適應新的場景、代理和任務,包括實際的機器人部署[98]。同時,GIRAF利用大型語言模型的強大能力,更加靈活地解釋手勢和語言命令,使得能夠準確推斷人類意圖并為更有效的人機協作對手勢含義進行情境化[99]。

在這一領域的一個創新發展是Cap(代碼作為策略)[47],它主張以機器人為中心的語言模型生成程序。這些程序可以適應機器人操作棧的特定層:解釋自然語言命令、處理感知數據以及為原始語言控制參數化低維輸入。這種方法的基本原則是分層代碼生成促進了更復雜代碼的創建,從而推進了這一領域的最新技術。

無論是家庭清潔應用還是Cap中的以機器人為中心的語言模型生成程序,都突出了LLMs在提供常識知識和解釋自然語言指令方面的優勢。傳統機器人學通常需要廣泛的數據收集和專門的模型訓練。相比之下,LLMs通過利用其在文本數據上的廣泛訓練來減輕這種需求。LLMs的代碼理解和生成能力尤其關鍵,使機器人能夠更有效地與物理世界互動并執行復雜任務。然而,應用重點有所區別:家庭清潔功能傾向于強調日常任務和環境適應性,而Cap則專注于通過語言模型生成程序(LMPs)編程和控制機器人的更技術性行為。

總之,將LLMs整合到機器人推理任務中強調了它們在自然語言理解、常識知識提供以及代碼理解和生成方面的顯著能力。這些特性不僅減輕了與傳統機器人學相關的數據收集和模型訓練負擔,還提高了機器人的泛化能力和靈活性。通過充分的訓練和調整,LLMs可以應用于各種場景和任務,展示了它們在機器人學和人工智能未來的巨大潛力和廣泛的適用性。

2) 復雜任務推理和決策:在復雜任務推理和決策領域,各種研究已經利用LLMs的推理能力來增強特定下游任務的精細化。例如,SayCan利用LLMs中嵌入的廣泛知識進行具體化任務以及強化學習[61]。這種方法涉及使用強化學習來揭示有關個人技能價值函數的見解。然后,它使用這些技能的文本標簽作為潛在響應,而LLM為任務完成提供總體語義指導。

另一個值得注意的發展是Instruct2Act框架[100]。它提供了一個用戶友好的、通用的機器人系統,該系統使用LLMs將多模態命令轉換為機器人領域中的一系列動作。該系統使用LLM生成的策略代碼,這些代碼對各種視覺基礎模型進行API調用,從而獲得對任務集的視覺理解。

LLMs在自我規劃和PDDL(規劃領域定義語言)規劃中的使用也已經被探索[101]。已經證明,LLM輸出可以有效地指導啟發式搜索規劃器。

在失敗解釋和糾正任務領域,REFLECT框架利用機器人過去經驗的層次化總結,這些經驗是從多感官觀察生成的,來查詢LLM進行失敗推理[102]。獲得的失敗解釋然后可以指導基于語言的規劃器糾正失敗并成功完成任務。

此外,預訓練多模態模型的適應也是一種常見策略。通過將視覺-語言模型的預訓練與機器人數據集成,以訓練視覺-語言-行動(VLA)模型[62],研究人員發現,經過互聯網數據訓練的模型,參數高達550億,可以生成高效的機器人策略。這些模型表現出增強的泛化性能,并受益于網絡上可用的廣泛的視覺-語言預訓練能力。

Socratic Models代表了另一種方法[67],其中多個大型預訓練模型之間的結構化對話促進了新多模態任務的聯合預測。這種方法在多個任務中實現了零次射擊性能。

在這些研究中,主要的重點是利用LLMs自動化推理和決策過程。這是通過利用LLMs提供或利用高級語義知識的能力來實現的,從而增強了任務執行。有些方法將LLMs與其他模態集成,如視覺和行動,以加深任務理解和執行。其他方法展示了在以前未見的任務上的有效性能,展示了零次或少次學習的能力。

每項研究采用了獨特的方法來整合LLMs。例如,SayCan結合了強化學習,而Instruct2Act則集中在直接映射多模態指令上。所采用的技術——從強化學習和啟發式搜索到多模態預訓練——在不同的應用領域,如機器人操控、規劃和自動決策制定中差異顯著。這些研究共同展示了LLMs在管理復雜任務推理和決策方面的巨大潛力。通過將LLMs與其他技術(如強化學習和多模態數據處理)結合起來,可以實現更深層次的語義理解和更有效的決策支持。這在機器人學和自動化領域尤為明顯,這種整合方法為新應用鋪平了道路。然而,這些方法的有效性高度依賴于任務的具體性質、所使用的數據和模型訓練方法。因此,每種方法的選擇和應用必須仔細針對特定上下文進行定制。

3) 交互策略:LLMs的最新進展在交互策略的發展中做出了重大貢獻,展示了在語言生成和類似人類推理方面的印象能力。Matcha[103]利用LLMs增強了交互式多模態感知,展示了LLMs在理解各種類型的輸入數據(如視覺和聽覺)方面的潛力。這種方法提出了一個增強的LLM多模態交互代理。這個代理不僅利用LLMs中固有的常識知識進行更合理的交互式多模態感知,而且還展示了LLMs在進行這種感知和解釋行為方面的實際應用。

生成性代理,如所介紹的,是為了模擬人類行為而設計的交互計算代理[104]。這些代理的架構被設計成存儲、合成和應用相關記憶,從而使用大型語言模型生成合理的行為。將LLMs與這些計算代理集成,促進了先進架構和交互模式的創建。這種結合使得更真實的人類行為模擬成為可能,擴展了LLMs的潛在應用。

基于LLMs的交互策略的重點是將LLMs與其他感知系統(如圖像識別和語音處理)融合。這種融合旨在模仿或增強人類能力,提高認知和處理能力。這種進步在智能助理、機器人和增強現實系統領域有著深遠的影響。

在討論的工作中,特別強調了多模態感知,重點是提高系統理解和與其環境互動的能力。此外,人類行為的模擬旨在在人工智能中復制人類的思維和行動過程。這兩個方向的融合有望創造出更強大、更通用的智能系統。這些系統被設想能夠以更復雜和人性化的水平與人類互動,提出了重大的技術挑戰,并引發了關鍵的倫理和社會適應問題。

IV. GPT-4V賦能的具體化任務規劃

基于前述對具體化任務和LLMs的調查,我們在本研究中開發了一個基于GPT-4V的具體化任務規劃框架,并進行了評估實驗,如圖1所示。以下部分將提供有關數據集、提示設計和實驗結果的詳細信息。

A. 數據集

為了全面評估GPT-4V的多模態具體化任務規劃能力,我們選擇了來自9個數據集的40多個案例,重點關注操控和抓取。這些動作在遵循指令的機器人學中是基礎,涉及多種人類指令在不同場景中的應用,如廚房取物和桌面重新排列。所選數據集通過谷歌開放XEmbodiment數據集[49]訪問。在每個案例中,視頻演示和自然語言指令作為輸入,評估GPT-4V作為機器人大腦的能力。這種設置使得基于自然語言指令的健壯規劃成為可能,用于生成機器人動作。

B. 提示設計

提示設計在查詢LLMs時起著至關重要的作用。一個精心制作的、信息豐富且結構清晰的提示,能夠產生更精確和一致的輸出,與給定指令相符合。在這里,我們通過結合圖像更新了[114]中的文本提示,創建了一個多模態提示,引導GPT-4V生成機器人任務計劃。多模態提示由五部分組成:

? 系統角色說明:指定任務和GPT-4V在其響應中采用的角色。

? 預定義動作池:一組預定義的機器人動作,GPT-4V可以從中選擇和排序,逐步完成任務。為解決詞匯限制,必要時提示GPT-4V創建新動作。

? 示例輸出:一個JSON格式的示例,用于說明預期輸出并確保一致性。

? 案例環境圖像和自然語言指令:包括從視頻演示中提取的第一幀作為環境圖像。

? 評估:GPT-4V負責根據與視頻演示的一致性對生成的任務計劃進行評估,并提供解釋。

前三部分作為每個查詢的系統消息輸入,而最后兩部分作為用戶消息根據測試數據變化。完整的提示如圖附錄4所示。

V. 實驗結果

在我們的實驗框架中,大型語言模型(LLMs)首先生成針對每個機器人任務目標的逐步指令。隨后,在這個生成的指令的指導下,模型從預定義的動作池和動作對象中選擇最合適的動作,形成每個步驟的動作計劃。在獲得LLMs生成的指令后,我們通過將它們與相應視頻數據集中的Ground Truth指令進行比較,對生成的結果進行了定量評估。我們在9個公開可用的機器人數據集上進行了嚴格的測試,得出了深刻且富有洞察力的發現。

例如,在RT-1 Robot Action [105]數據集中,如圖2頂部面板所示,多模態LLMs準確識別了目標對象,并熟練地分解和執行了任務。如圖2左上角所示,基于給定的環境和指令,LLMs生成的指令如下:1) 將手移動到底層抽屜中目標的位置;2) 抓住目標;3) 將手帶著目標移動到柜臺上;4) 在柜臺上釋放目標。在提供詳細的逐步文本指令后,LLMs從動作池中選擇并列出一組符合當前策略的指令和對象。例如,“移動手(底層抽屜)”是第一項文本指令的功能表達,便于后續直接使用這個動作計劃與控制機器人臂的接口代碼。此外,通過LLMs生成的“環境狀態”,可以明顯看出模型能夠有效理解一系列操作后環境中關鍵對象空間關系的變化。圖2中的“匹配得分”也展示了模型的精確度。

表 I數據集描述以及GPT-4V自評的平均匹配得分,比較它生成的任務計劃與九個測試數據集中的真實演示。

 

大型語言模型(LLM)在機器人領域的機遇、挑戰與展望 -AI.x社區

大型語言模型(LLM)在機器人領域的機遇、挑戰與展望 -AI.x社區

圖 2. 不同數據集生成的任務計劃:RT-1 機器人動作(頂部面板)、QT-Opt(左中)、伯克利橋(右中)、弗萊堡Franka游戲(底部左)和南加州大學Jaco游戲(底部右)。

在上述測試案例中,場景涉及的對象較少,任務指令相對簡潔明了。因此,我們進一步進行了涉及語義模糊任務描述和復雜場景的測試。圖2左中代表了一個來自QT-Opt數據集[106]的測試案例,其中指令簡單地是“拿起任何東西”,沒有指定場景中的任何實體。從LLMs生成的結果來看,它產生了一系列的通用指令,適用于抓取任何物體,并與地面真相保持高度一致性。對于復雜場景,如圖2右中所示,我們測試了一個來自伯克利橋數據集[107]的示例案例。輸入指令“將銀鍋從紅色罐頭前面的移動到桌子前沿藍色毛巾旁邊”涉及多個對象及其在場景中的空間關系。在這里,LLMs不僅理解了任務的目的,還熟練地執行了任務細節,展示了它們先進的圖像理解和邏輯推理能力。

圖2和圖3展示了LLMs在多樣化和復雜場景中的有效性的進一步證據(包括數據集[108]–[113])。在這些實驗中,LLMs表現出色,即使在設置復雜或有特殊要求的任務中也是如此。表I展示了GPT-4V在九個不同數據集中自我評估的平均匹配得分,表明生成的任務計劃與地面真相演示之間具有一致的高水平一致性。這鞏固了我們方法的有效性,并強調了多模態LLMs在機器人任務執行中的強大的圖像理解和邏輯推理能力。其他測試結果可以在附錄中找到。


大型語言模型(LLM)在機器人領域的機遇、挑戰與展望 -AI.x社區

圖 3. 不同數據集生成的任務計劃:伯克利Autolab UR5(左上)、紐約大學Vinn(右上)、BC-Z(左下)和TOTO基準測試(右下)。

VI. 局限性、討論和未來工作

我們概述了將大型語言模型(LLMs)整合到各種任務和環境中的機器人系統,并評估了GPT-4V在多模態任務規劃中的表現。盡管GPT-4V作為任務規劃的機器人大腦展示了令人印象深刻的多模態推理和理解能力,但它面臨幾個局限性:1)生成的計劃是同質化的,缺乏詳細的具體化和特定、穩健的設計來管理復雜環境和任務。2)當前的多模態LLMs,如GPT-4V和Google Gemini [28],需要精心制作的、冗長的提示來產生可靠的輸出,這需要領域專業知識和廣泛的技巧。3)機器人受到預定義動作的限制,限制了其執行自由和穩健性。4)GPT-4V API的閉源性質及相關的時間延遲可能會阻礙嵌入式系統開發和實時商業應用。未來的研究應該旨在解決這些挑戰,以開發更穩健的AGI機器人系統。

另一方面,多模態GPT-4V在機器人學中展示的先進推理和視覺語言理解能力突顯了以LLM為中心的AGI機器人系統的潛力。展望未來,以多模態LLM為中心的AGI機器人在各個領域都有應用潛力。在精準農業領域,這些機器人可以取代人類在各種勞動密集型任務中的勞動力,尤其是在收獲方面。這包括像水果采摘和作物表型分析[115],[116]這樣的任務,這些任務需要在農場復雜的環境下進行高級推理和精確行動[117]。在醫療保健領域,對安全和精確性的關鍵需求對多模態LLM的感知和推理能力提出了更高的要求。這一點在機器人輔助篩查和手術中尤為重要,因為需要根據個人需求定制任務[118]。此外,利用對比學習模型如CLIP[119]將大腦信號與自然語言對齊,為開發以LLM為中心的AGI機器人系統中的腦-機接口(BCIs)[120]提供了一條路徑。這些系統能夠讀取和解釋人類大腦信號,如EEG和fMRI,用于復雜任務完成中的自我規劃和控制[80],[121]。這一進步可以顯著縮小人-環境互動的差距,減輕身體和認知勞動。

VII. 結論

在本文中,我們提供了將大型語言模型(LLMs)整合到各種機器人系統和任務的概述。我們的分析顯示,LLMs展示了令人印象深刻的推理、語言理解和多模態處理能力,這些能力可以顯著增強機器人對指令、環境和所需行動的理解。我們在9個數據集的30多個案例中評估了最近發布的GPT-4V模型進行具體化任務規劃。結果表明,GPT-4V能夠有效利用自然語言指令和視覺感知來生成詳細的行動計劃,以完成操控任務。這表明使用多模態LLMs作為具體化智能的機器人大腦是可行的。

然而,關于模型透明度、穩健性、安全性和現實世界適用性的一些挑戰仍然需要解決,因為我們正在朝著更實用和有能力的基于LLM的AI系統邁進。具體來說,大型神經模型的黑盒性質使得很難完全理解它們的內部推理過程和失敗模式。此外,模擬與現實世界之間的差距在不降低性能的情況下轉移策略方面持續存在困難。仍然需要通過標準化測試、對抗性訓練、策略適應方法和更安全的模型架構等技術來解決這些問題。依賴LLMs的自主智能系統的問責和監督協議也需要深思熟慮。以謹慎、道德和社會負責的方式克服這些多方面的挑戰仍然是推進這一領域進步的必要條件。

隨著語言模型繼續從多模態數據中積累廣泛的基礎知識,我們預計在將它們與機器人學和基于模擬的學習整合方面將迅速創新。這可以在部署前使用模擬到現實技術在模擬中直觀地開發和驗證智能機器人。這樣的發展可以深刻增強和轉變我們構建、測試和部署智能機器人系統的方式。

總體而言,自然語言處理和機器人學的協同整合是一個充滿機遇和挑戰的有前景的領域,值得進行廣泛的未來跨學科研究。

Jiaqi Wang?, Zihao Wu?, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu,Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao,Bao Ge, Xiang Li, Tianming Liu?, and Shu Zhang?

西北工大、美國佐治亞大學等,2024.01,JOURNAL OF LATEX CLASS FILES

?

本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/T_vqm2kl239uwxDL2CNBAg??



?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美中文字幕一区二区三区亚洲 | 日韩中文字幕av | 国产精品一区久久久久 | 免费三级黄 | 欧美www在线观看 | 中文字幕精品视频在线观看 | 美女久久久久久久久 | 免费观看成人鲁鲁鲁鲁鲁视频 | 国产精品久久久久久久久免费相片 | 欧美在线视频网站 | 91亚洲精选 | 欧美日韩国产一区二区三区 | 久久69精品久久久久久久电影好 | 一区二区久久精品 | 毛片在线看片 | 青青草国产在线观看 | 久久久久久久久久久福利观看 | 欧美日韩一 | 在线国产一区二区 | 国产激情自拍视频 | 精品美女久久久 | 中文天堂在线观看 | 丝袜久久| 日韩激情免费 | 国产激情小视频 | 欧美日韩在线观看一区 | 午夜手机在线视频 | 国产一区二区电影网 | www.亚洲精品| 亚洲免费在线观看av | 中文字幕第7页 | 国产成人精品一区二区三区视频 | 欧美亚洲在线 | 国产香蕉视频在线播放 | 久久久久久久久久久久久久av | 麻豆一区 | 国产精品日产欧美久久久久 | 浮生影院免费观看中文版 | 日韩不卡一区二区 | 欧美性极品xxxx做受 | 国产一区999|