率先解決多類數據同時受損，中科大MIRA團隊TRACER入選NeurIPS 2024：強魯棒性的離線變分貝葉斯強化學習

作者：機器之心 2024-11-18 07:45:00

近日，中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數據集存在多類數據損壞這一復雜的實際問題，提出了一種魯棒的變分貝葉斯推斷方法，有效地提升了智能決策模型的魯棒性，為機器人控制、自動駕駛等領域的魯棒學習奠定了重要基礎。

本論文作者楊睿是中國科學技術大學 2019 級碩博連讀生，師從王杰教授、李斌教授，主要研究方向為強化學習、自動駕駛等。他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發表論文兩篇，曾獲滴滴精英實習生（16/1000+）。

近日，中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數據集存在多類數據損壞這一復雜的實際問題，提出了一種魯棒的變分貝葉斯推斷方法，有效地提升了智能決策模型的魯棒性，為機器人控制、自動駕駛等領域的魯棒學習奠定了重要基礎。論文發表在 CCF-A 類人工智能頂級會議 Neural Information Processing Systems（NeurIPS 2024）。

論文地址：https://arxiv.org/abs/2411.00465
代碼地址：https://github.com/MIRALab-USTC/RL-TRACER

引言

在機器人控制領域，離線強化學習正逐漸成為提升智能體決策和控制能力的關鍵技術。然而，在實際應用中，離線數據集常常由于傳感器故障、惡意攻擊等原因而遭受不同程度的損壞。這些損壞可能表現為隨機噪聲、對抗攻擊或其他形式的數據擾動，影響數據集中的狀態、動作、獎勵和轉移動態等關鍵元素。經典離線強化學習算法往往假設數據集是干凈、完好無損的，因此在面對數據損壞時，機器學習到的策略通常趨向于損壞數據中的策略，進而導致機器在干凈環境下的部署時性能顯著下降。

盡管研究者在魯棒離線強化學習領域已經取得了一些進展，如一些方法嘗試通過增強測試期間的魯棒性來緩解噪聲或對抗攻擊的影響，但它們大多在干凈數據集上訓練智能體模型，以防御測試環境中可能出現的噪聲和攻擊，缺乏對訓練用離線數據集存在損壞的應對方案。而針對離線數據損壞的魯棒強化學習方法則只關注某一特定類別的數據存在損壞，如狀態數據、或轉移動態數據存在部分損壞，他們無法有效應對數據集中多個元素同時受損的復雜情況。

為了針對性地解決這些現有算法的局限性，我們提出了一種魯棒的變分貝葉斯推斷方法（TRACER），有效地增強了離線強化學習算法在面臨各類數據損壞時的魯棒性。TRACER 的優勢如下所示：

1. 據我們所知，TRACER 首次將貝葉斯推斷引入到抗損壞的離線強化學習中。通過將所有離線數據作為觀測值，TRACER 捕捉了由各類損壞數據所導致的動作價值函數中的不確定性。

2. 通過引入基于熵的不確定性度量，TRACER 能夠區分損壞數據和干凈數據，從而調控并減弱損壞數據對智能體模型訓練的影響，以增強魯棒性。

3. 我們在機器人控制（MuJoCo）和自動駕駛（CARLA）仿真環境中進行了系統性地測試，驗證了 TRACER 在各類離線數據損壞、單類離線數據損壞的場景中均顯著提升了智能體的魯棒性，超出了多個現有的 SOTA 方法。

1. 方法介紹

1.1 動機

考慮到（1）多種類型的損毀會向數據集的所有元素引入較高的不確定性，（2）每個元素與累積獎勵（即動作值、Q 值）之間存在明確的相關性關系（見圖 1 中的虛線），因此使用多種受損數據估計累積獎勵函數（即動作值函數）會引入很高的不確定性。

圖 1. 決策過程的概率圖模型。實線連接的節點表示數據集中的數據，而虛線連接的 Q 值（即動作值、累積回報）不屬于數據集。

為了處理這類由多種數據損毀（即狀態、動作、獎勵、狀態轉移數據受損）導致的高不確定性問題，基于圖 2 所示的概率圖模型，我們提出利用數據集中的所有元素作為觀測數據。我們旨在利用這些觀測數據與累積獎勵之間的高度相關性，來準確地識別動作值函數的不確定性。

1.2 基于受損數據的貝葉斯推斷

我們提出使用離線數據集的所有元素作為觀測值，利用數據之間的相關性同時解決不確定性問題。具體地，基于離線數據集中動作價值與四個元素（即狀態、動作、獎勵、下一狀態）之間的關系，我們分別使用各個元素作為觀測數據，通過引入變分貝葉斯推理框架，我們最大化動作值函數的后驗分布，從而推導出各個元素對應的基于最大化證據下界 (ELBO) 的損失函數。基于對動作價值函數的后驗分布的擬合，我們能有效地將數據損壞建模為動作值函數中的不確定性。

1.3 基于熵的不確定性度量

為了進一步應對各類數據損壞帶來的挑戰，我們思考如何利用不確定性進一步增強魯棒性。鑒于我們的目標是提高在干凈環境中的智能體性能，我們提出減少損壞數據的影響，重點是使用干凈數據來訓練智能體。因此，我們提供了一個兩步計劃：（1）區分損壞數據和干凈數據；（2）調控與損壞數據相關的損失，減少其影響，從而提升在干凈環境中的表現。

對于（1），由于損壞數據通常會造成比干凈數據更高的不確定性和動作價值分布熵，因此我們提出通過估計動作值分布的熵，來量化損壞數據和干凈數據引入的不確定性。

對于 (2)，我們使用分布熵指數的倒數來加權我們提出的 ELBO 損失函數。因此，在學習過程中，TRACER 能夠通過調控與損壞數據相關的損失來減弱其影響，并同時專注于最小化與干凈數據相關的損失，以增強在干凈環境中的魯棒性和性能。

1.4 算法架構