成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

率先解決多類數據同時受損,中科大MIRA團隊TRACER入選NeurIPS 2024:強魯棒性的離線變分貝葉斯強化學習

人工智能 新聞
近日,中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數據集存在多類數據損壞這一復雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性,為機器人控制、自動駕駛等領域的魯棒學習奠定了重要基礎。

本論文作者楊睿是中國科學技術大學 2019 級碩博連讀生,師從王杰教授、李斌教授,主要研究方向為強化學習、自動駕駛等。他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發表論文兩篇,曾獲滴滴精英實習生(16/1000+)。

近日,中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數據集存在多類數據損壞這一復雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性,為機器人控制、自動駕駛等領域的魯棒學習奠定了重要基礎。論文發表在 CCF-A 類人工智能頂級會議 Neural Information Processing Systems(NeurIPS 2024)。

圖片

  • 論文地址:https://arxiv.org/abs/2411.00465
  • 代碼地址:https://github.com/MIRALab-USTC/RL-TRACER

引言

在機器人控制領域,離線強化學習正逐漸成為提升智能體決策和控制能力的關鍵技術。然而,在實際應用中,離線數據集常常由于傳感器故障、惡意攻擊等原因而遭受不同程度的損壞。這些損壞可能表現為隨機噪聲、對抗攻擊或其他形式的數據擾動,影響數據集中的狀態、動作、獎勵和轉移動態等關鍵元素。經典離線強化學習算法往往假設數據集是干凈、完好無損的,因此在面對數據損壞時,機器學習到的策略通常趨向于損壞數據中的策略,進而導致機器在干凈環境下的部署時性能顯著下降。

盡管研究者在魯棒離線強化學習領域已經取得了一些進展,如一些方法嘗試通過增強測試期間的魯棒性來緩解噪聲或對抗攻擊的影響,但它們大多在干凈數據集上訓練智能體模型,以防御測試環境中可能出現的噪聲和攻擊,缺乏對訓練用離線數據集存在損壞的應對方案。而針對離線數據損壞的魯棒強化學習方法則只關注某一特定類別的數據存在損壞,如狀態數據、或轉移動態數據存在部分損壞,他們無法有效應對數據集中多個元素同時受損的復雜情況。

為了針對性地解決這些現有算法的局限性,我們提出了一種魯棒的變分貝葉斯推斷方法(TRACER),有效地增強了離線強化學習算法在面臨各類數據損壞時的魯棒性。TRACER 的優勢如下所示:

1. 據我們所知,TRACER 首次將貝葉斯推斷引入到抗損壞的離線強化學習中。通過將所有離線數據作為觀測值,TRACER 捕捉了由各類損壞數據所導致的動作價值函數中的不確定性。

2. 通過引入基于熵的不確定性度量,TRACER 能夠區分損壞數據和干凈數據,從而調控并減弱損壞數據對智能體模型訓練的影響,以增強魯棒性。

3. 我們在機器人控制(MuJoCo)和自動駕駛(CARLA)仿真環境中進行了系統性地測試,驗證了 TRACER 在各類離線數據損壞、單類離線數據損壞的場景中均顯著提升了智能體的魯棒性,超出了多個現有的 SOTA 方法。

1. 方法介紹

1.1 動機

考慮到(1)多種類型的損毀會向數據集的所有元素引入較高的不確定性,(2)每個元素與累積獎勵(即動作值、Q 值)之間存在明確的相關性關系(見圖 1 中的虛線),因此使用多種受損數據估計累積獎勵函數(即動作值函數)會引入很高的不確定性。

圖片

圖 1. 決策過程的概率圖模型。實線連接的節點表示數據集中的數據,而虛線連接的 Q 值(即動作值、累積回報)不屬于數據集。

為了處理這類由多種數據損毀(即狀態、動作、獎勵、狀態轉移數據受損)導致的高不確定性問題,基于圖 2 所示的概率圖模型,我們提出利用數據集中的所有元素作為觀測數據。我們旨在利用這些觀測數據與累積獎勵之間的高度相關性,來準確地識別動作值函數的不確定性。

1.2 基于受損數據的貝葉斯推斷

我們提出使用離線數據集的所有元素作為觀測值,利用數據之間的相關性同時解決不確定性問題。具體地,基于離線數據集中動作價值與四個元素(即狀態、動作、獎勵、下一狀態)之間的關系,我們分別使用各個元素作為觀測數據,通過引入變分貝葉斯推理框架,我們最大化動作值函數的后驗分布,從而推導出各個元素對應的基于最大化證據下界 (ELBO) 的損失函數。基于對動作價值函數的后驗分布的擬合,我們能有效地將數據損壞建模為動作值函數中的不確定性。

1.3 基于熵的不確定性度量

為了進一步應對各類數據損壞帶來的挑戰,我們思考如何利用不確定性進一步增強魯棒性。鑒于我們的目標是提高在干凈環境中的智能體性能,我們提出減少損壞數據的影響,重點是使用干凈數據來訓練智能體。因此,我們提供了一個兩步計劃:(1)區分損壞數據和干凈數據;(2)調控與損壞數據相關的損失,減少其影響,從而提升在干凈環境中的表現。

對于(1),由于損壞數據通常會造成比干凈數據更高的不確定性和動作價值分布熵,因此我們提出通過估計動作值分布的熵,來量化損壞數據和干凈數據引入的不確定性。

對于 (2),我們使用分布熵指數的倒數來加權我們提出的 ELBO 損失函數。因此,在學習過程中,TRACER 能夠通過調控與損壞數據相關的損失來減弱其影響,并同時專注于最小化與干凈數據相關的損失,以增強在干凈環境中的魯棒性和性能。

1.4 算法架構

圖片

圖 2. TRACER 算法框架圖。

2. 實驗介紹

為了模擬數據受損的情形,我們對數據集的部分數據加入隨機噪聲或對抗攻擊來構建損壞數據。在我們的實驗中,我們對 30% 的單類數據進行損壞。因此,在所有類型的數據都有損壞時,整個離線數據集中,損壞數據占約圖片的規模。

各類數據均受損

所有類型數據元素均存在損壞的部分實驗結果見表 1,TRACER 在所有控制環境中均獲得了較為明顯的性能提升,提升幅度達 + 21.1%,這一結果展現了 TRACER 對大規模、各類數據損壞的強魯棒性。

圖片

表 1. 離線數據集的所有類型元素均存在隨機損壞(random)或對抗損壞(advers)時,我們的方法 TRACER 在所有環境中都獲得了最高的平均得分。

單類數據受損

單種類型數據元素存在損壞的部分實驗結果見表 2 和表 3。在單類數據損壞中,TRACER 于 24 個實驗設置里實現 16 組最優性能,可見 TRACER 面向小規模、單類數據損壞的問題也能有效地增強魯棒性。

圖片

表 2. 單類元素存在隨機損壞時,我們的方法 TRACER 在 8 個實驗設置中獲得了最高的平均得分。

圖片

表 3. 單類元素存在對抗損壞時,我們的方法 TRACER 在 8 個實驗設置中獲得了最高的平均得分。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-21 10:35:00

2025-04-01 09:32:00

模型訓練AI

2025-03-14 10:22:03

2021-05-07 09:34:20

量子芯片計算機

2024-12-09 10:15:00

AI技術

2020-04-15 16:44:38

谷歌強化學習算法

2023-12-18 15:16:47

數據模型

2022-10-31 14:06:32

量子研究

2022-02-25 23:49:31

量子研究

2024-11-11 17:27:26

2022-02-23 09:27:37

神經網絡人工智能模型

2013-06-19 11:32:32

計算性能ISCHPC

2012-04-18 10:40:33

超級計算機大學生超算大賽

2024-06-17 07:10:00

2024-11-04 13:30:00

模型AI

2023-12-04 13:23:00

數據訓練

2024-01-15 13:11:22

模型數據

2020-05-06 16:07:05

百度飛槳

2022-03-08 09:15:29

人工智能語音識別模型

2017-02-27 11:36:31

阿里
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一区二区三区一线天视频 | 久久三区 | 国产精品成人一区二区三区夜夜夜 | 欧美日韩国产中文 | 国产欧美日韩一区 | 天堂一区在线 | 欧美嘿咻 | 亚洲精品一区二区三区蜜桃久 | 精品视频一区二区三区在线观看 | 国产乱码精品一区二区三区中文 | 亚洲精品电影 | 日韩不卡一区二区 | 欧美久久久网站 | 99久久婷婷国产综合精品首页 | 亚洲国产一区在线 | 黄色毛片视频 | 精品视频在线观看 | 日韩精品在线播放 | 天天操天天操 | 在线播放国产一区二区三区 | 欧美不卡一区二区三区 | 午夜精品久久 | 国产在线精品一区二区三区 | 欧美国产日韩在线观看成人 | 国产一区二区三区四区区 | 久久久久久99 | 亚洲色图综合网 | 一区二区三区在线 | 午夜欧美一区二区三区在线播放 | 欧美a级成人淫片免费看 | 欧美日韩国产中文字幕 | 国产视频久久久 | 日韩av在线一区二区 | 91视频.| av在线免费观看网址 | 日韩精品激情 | 一区二区精品视频 | 美女在线一区二区 | 在线欧美视频 | 久草免费视 | 欧美日韩在线综合 |