機器人學會轉筆、盤核桃了！GPT-4加持，任務越復雜，表現越優秀

作者：大數據文摘 2023-10-22 20:14:08

人工智能

家人們，繼人工智能（AI）攻占象棋、圍棋、Dota之后，轉筆這一技能也被 AI 機器人學會了。

大數據文摘出品

家人們，繼人工智能（AI）攻占象棋、圍棋、Dota之后，轉筆這一技能也被 AI 機器人學會了。

上面這個筆轉的賊溜的機器人，得益于名叫Eureka的智能體（Agent），是來自英偉達、賓夕法尼亞大學、加州理工學院和得克薩斯大學奧斯汀分校的一項研究。

得Eureka“指點”后的機器人還可以打開抽屜和柜子、扔球和接球，或者使用剪刀。據英偉達介紹，Eureka有10種不同的類型，可執行29種不同的任務。

要知道在之前，單就轉筆這一功能，僅靠人類專家手工編程，是無法如此順滑的實現的。

機器人盤核桃

而Eureka 能夠自主編寫獎勵算法來訓練機器人，且碼力強勁：自編的獎勵程序在 83% 的任務中超越了人類專家，能使機器人的性能平均提升52%。

Eureka開創了一種從人類反饋中無梯度學習的新途徑，它能夠輕松吸收人類提供的獎勵和文字反饋，從而進一步完善自己的獎勵生成機制。

具體而言，Eureka 利用了 OpenAI 的 GPT-4 來編寫用于機器人的試錯學習的獎勵程序。這意味著該系統并不依賴于人類特定任務的提示或預設的獎勵模式。

Eureka 通過在 Isaac Gym 中使用 GPU 加速的仿真，能夠快速評估大量候選獎勵的優劣，從而實現更有效率的訓練。接著，Eureka 會生成訓練結果的關鍵統計信息摘要，并指導 LLM（Language Model，語言模型）改進獎勵函數的生成。通過這種方式，AI 智能體能夠獨立地改善對機器人的指令。

Eureka的框架

研究人員還發現，任務越復雜，GPT-4 的指令就越能優于所謂的"獎勵工程師"的人類指令。參與該研究的研究員甚至稱 Eureka 為“超人類獎勵工程師”。

Eureka 成功地彌補了高層推理（編碼）和低層運動控制之間的鴻溝。其采用了一種被稱為 "混合梯度架構"：一個純推理的黑盒子 LLM（Language Model，語言模型）引導一個可學習的神經網絡。在這個架構中，外層循環運行 GPT-4 來優化獎勵函數（無梯度），而內層循環則運行強化學習以訓練機器人的控制器（基于梯度）。
——NVIDIA的高級研究科學家Linxi "Jim" Fan

Eureka 可以整合人類的反饋，以便更好地調整獎勵，使其更符合開發者的期望。Nvidia 把這個過程稱為"in-context RLHF"（從人類反饋中進行上下文學習）

值得注意的是，Nvidia 的研究團隊已經開源了 Eureka 的 AI 算法庫。這將使得個人和機構能夠通過 Nvidia Isaac Gym 來探索和實驗這些算法。Isaac Gym 是建立在 Nvidia Omniverse 平臺上的，這是一個基于 Open USD 框架用于創建 3D 工具和應用程序的開發框架。

論文鏈接：https://arxiv.org/pdf/2310.12931.pdf
項目鏈接：https://eureka-research.github.io/
代碼鏈接：https://github.com/eureka-research/Eureka

如何評價？

在過去的十年中，強化學習取得了巨大的成功，但我們必須承認其中仍存在持續的挑戰。之前雖然有嘗試引入類似的技術，但與使用語言模型（LLM）來輔助獎勵設計的 L2R（Learning to Reward）相比，Eureka 更為突出，因為它消除了特定任務提示的需要。Eureka 之所以能比 L2R 更出色，是因為它能夠創建自由表達的獎勵算法，并利用環境源代碼作為背景信息。

英偉達的研究團隊進行了一項調查，以探索在使用人類獎勵函數啟動時，是否能提供一些優勢。實驗的目的是想看看是否你們能順利地用初始 Eureka 迭代的輸出替代原始的人類獎勵函數。

在測試中，英偉達的研究團隊在每個任務的情境下，使用相同的強化學習算法和相同的超參數對所有最終獎勵函數進行了優化。為了測試這些特定任務的超參數是否經過良好調整以確保人工設計的獎勵的有效性，他們采用了經過充分調整的近端策略優化（PPO）實現，這個實現基于之前的工作，沒有進行任何修改。對于每個獎勵，研究人員進行了五次獨立的 PPO 訓練運行，并報告了策略檢查點達到的最大任務指標值的平均值，作為獎勵性能的度量。

結果顯示：人類設計者通常對相關狀態變量有很好的理解，但在設計有效獎勵方面可能缺乏一定的熟練度。

Nvidia 的這項開創性研究在強化學習和獎勵設計領域開辟了新的疆界。他們的通用獎勵設計算法 Eureka 利用了大型語言模型和上下文進化搜索的力量，能夠在廣泛的機器人任務領域生成人類水平的獎勵，而無需特定任務提示或人工干預，這在很大程度上改變了我們對 AI 和機器學習的理解。

責任編輯：趙寧寧來源：大數據文摘

人工智能 GPT-4

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器人學會轉筆、盤核桃了！GPT-4加持，任務越復雜，表現越優秀

如何評價？