成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

順序決策與基礎模型如何交叉互惠?谷歌、伯克利等探討更多可能

人工智能 新聞
預訓練基礎模型和順序決策的研究越來越頻繁地出現交叉,那么如何將兩個領域的研究交融,讓二者都從交叉研究中受益?這篇論文對這一問題進行了深入探討。

在廣泛數據集上基于自監督學習的預訓練基礎模型,已經展現出將知識遷移到不同下游任務的優秀能力。因此,這些模型也被應用到長期推理、控制、搜索和規劃等更復雜的問題,或者被部署在對話、自動駕駛、醫療保健和機器人等應用中。未來它們也會提供接口給外部實體和智能體,例如在對話應用中,語言模型與人進行多輪交流;在機器人領域,感知控制模型在真實環境中執行動作。

這些場景為基礎模型提出了新的挑戰,包括:1) 如何從外部實體(如人對對話質量的評價)的反饋中學習,2) 如何適應大規模語言或視覺數據集中不常見的模態(如機器人動作),3) 如何在未來進行長期的推理和規劃。 

圖片

這些問題一直是傳統意義上順序決策的核心,涵蓋了強化學習、模仿學習、規劃、搜索和最優控制等領域。與基礎模型使用數十億圖像和文本 token 的廣泛數據集進行預訓練的范式相反,以往關于順序決策制定的工作主要集中在任務特定或具有有限先驗知識的白板設置上。

盡管缺少或沒有先驗知識讓順序決策看起來很難,但是對順序決策的研究已經在多個任務上超越了人類表現,如玩棋盤游戲、雅達利(Atari)電子游戲以及操作機器人完成導航和操作等。

然而,由于這些方法學習從零開始解決任務而沒有來自視覺、語言或其它數據集的廣泛知識,因此通常在泛化和樣本效率方面表現不佳,例如需要 7 塊 GPU 運行一天才能解決單個雅達利游戲。直覺上,類似于基礎模型所用的廣泛數據集也應該對順序決策制定模型有用。舉例而言,互聯網上有無數關于如何玩雅達利游戲的文章和視頻。同樣地,有關對象和場景屬性的大量知識對于機器人非常有用,關于人類愿望和情感的知識也可以改善對話模型。

雖然由于應用和關注點不同,基礎模型和順序決策的研究大體上是不相交的,但交匯的研究也越來越多。在基礎模型方面,隨著大語言模型的出現,目標應用從簡單的零樣本或少樣本任務擴展到現在需要長期推理或多次交互的問題 。相反在順序決策領域,受到大規模視覺和語言模型成功的啟發,研究人員開始為學習多模型、多任務和通用交互式智能體準備越來越大的數據集。

兩者領域之間的界線變得越來越模糊,一些最近的工作研究了預訓練基礎模型(例如 CLIP 和 ViT)在視覺環境中 bootstrap 交互式智能體的訓練,而其他工作則研究了基礎模型作為通過強化學習和人類反饋進行優化的對話智能體。還有一些工作還調整大型語言模型以與外部工具交互,例如搜索引擎、計算器、翻譯工具、MuJoCo 模擬器和程序解釋器。

最近,谷歌大腦團隊、UC 伯克利和 MIT 的研究者撰文表示,基礎模型和交互式決策研究相結合會讓彼此受益。一方面,將基礎模型應用于涉及外部實體的任務中,可以從交互式反饋和長期規劃中受益。另一方面,順序決策可以利用基礎模型的世界知識更快地解決任務并進行更好的泛化。

圖片

論文地址:https://arxiv.org/pdf/2303.04129v1.pdf

為了在這兩個領域的交集上推動進一步的研究,研究者限定了用于決策制定的基礎模型的問題空間。同時提供了理解當前研究的技術工具,回顧了目前存在的挑戰和未解決的問題,并預測了解決這些挑戰的潛在解決方案和有前景的方法。

論文概覽

論文主要分為以下 5 個主要章節。

第 2 章回顧了順序決策的相關背景,并提供了一些基礎模型和決策制定最好一起考慮的示例場景。隨后講述了圍繞基礎模型如何構建決策制定系統的不同組件。

圖片

第 3 章探討了基礎模型如何作為行為生成式模型(比如技能發現)和環境生成式模型(比如進行基于模型的推演)。

圖片

第 4 章探討了基礎模型如何作為狀態、動作、獎勵和轉移動態的表示學習器(例如即插即用的視覺 - 語言模型、基于模型的表示學習)。

圖片

第 5 章探討了語言基礎模型如何作為交互式智能體和環境,使得可以在順序決策框架(語言模型推理、對話、工具使用)下考慮新問題和應用。

圖片

最后一章,研究者概述了未解決的問題和挑戰,并提出了潛在的解決方案(例如如何利用廣泛的數據、如何構建環境以及基礎模型和順序決策的哪些方面可以得到改進)。

圖片

更多細節內容請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-22 15:21:00

2025-04-30 09:09:00

2023-11-14 07:47:42

IGN擴散模型

2022-03-28 13:25:42

AI扶貧機器之心

2023-12-16 09:49:18

2023-04-07 09:28:31

模型訓練

2023-05-26 17:20:29

模型工具

2024-10-08 15:20:00

AI安全

2025-04-18 08:42:52

模型推理AI

2024-11-29 09:18:01

2023-05-04 14:55:02

模型AI

2023-07-09 14:50:48

模型調優

2025-01-24 15:30:00

2023-08-05 13:45:46

模型AI

2024-09-25 09:37:16

2023-01-13 13:29:33

量子研究

2024-12-02 08:20:00

2024-02-19 13:10:02

AI模型

2024-03-04 08:15:00

2024-08-19 14:05:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美三级在线 | 国产精品一码二码三码在线 | 亚洲精品一区二区三区在线 | h视频免费在线观看 | 91精品国产色综合久久不卡蜜臀 | 欧美精品二区 | 免费在线观看毛片 | 亚洲一区二区三区 | av大片 | 一区二区中文字幕 | 日本在线视频中文字幕 | 91麻豆精品国产91久久久更新资源速度超快 | 亚洲 欧美 激情 另类 校园 | 狠狠干网站| 亚洲欧美成人在线 | 欧美久久一级 | 久久久久国产一区二区三区 | 免费久久视频 | 欧美在线小视频 | 久久久久久国产精品mv | 久久国产日本 | 在线观看特色大片免费网站 | 国产日韩欧美一区二区在线播放 | 国产第二页 | 欧美性成人 | 日韩一区二区久久 | 99在线免费观看视频 | 成人a网 | 亚洲第一天堂 | 少妇一区在线观看 | 久久久久国产精品一区二区 | 国产一级片精品 | 一级毛片色一级 | 激情网五月天 | 精品国产一级 | 日韩www视频| 精品1区 | 国产在线视频在线观看 | 国产福利精品一区 | 日本不卡视频 | 中文字幕一区在线观看视频 |