中科大提出動(dòng)作價(jià)值表征學(xué)習(xí)新方法，率先填補(bǔ)長(zhǎng)期決策信息的缺失

作者：量子位 2025-04-01 09:32:00

來(lái)自中科大的研究人員在信息瓶頸（Information Bottleneck）框架下，提出了一種新穎的魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法ROUSER。

在視覺(jué)強(qiáng)化學(xué)習(xí)中，許多方法未考慮序列決策過(guò)程，導(dǎo)致所學(xué)表征缺乏關(guān)鍵的長(zhǎng)期信息的空缺被填補(bǔ)上了。

來(lái)自中科大的研究人員在信息瓶頸（Information Bottleneck）框架下，提出了一種新穎的魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法ROUSER。

作者從理論上證明了ROUSER能夠使用學(xué)習(xí)到的魯棒表征準(zhǔn)確估計(jì)動(dòng)作價(jià)值，從而避免了智能體在測(cè)試環(huán)境中的決策能力遭到削弱。

具體而言，ROUSER通過(guò)最大化表征與動(dòng)作價(jià)值之間的互信息，來(lái)保留長(zhǎng)期信息；同時(shí)，最小化表征與狀態(tài)-動(dòng)作對(duì)之間的互信息，以濾除無(wú)關(guān)特征。

由于動(dòng)作價(jià)值是未知的，ROUSER提出將狀態(tài)-動(dòng)作對(duì)的魯棒表征分解為單步獎(jiǎng)勵(lì)和下一狀態(tài)-動(dòng)作對(duì)的魯棒表征。

實(shí)驗(yàn)結(jié)果表明，在包括背景干擾與顏色干擾的12項(xiàng)任務(wù)中，ROUSER于其中的11項(xiàng)任務(wù)上優(yōu)于多種當(dāng)前的先進(jìn)方法。

傳統(tǒng)方法難以捕捉關(guān)鍵長(zhǎng)期信息

視覺(jué)強(qiáng)化學(xué)習(xí)中的泛化問(wèn)題近年來(lái)受到了廣泛關(guān)注，其研究潛力在于使智能體具備處理現(xiàn)實(shí)復(fù)雜任務(wù)的能力，并能在多樣化環(huán)境中表現(xiàn)良好。

這里的泛化能力是指智能體能夠?qū)⑵鋵W(xué)到的策略直接應(yīng)用于未知環(huán)境，即使這些環(huán)境中存在與訓(xùn)練階段不同的視覺(jué)干擾（如動(dòng)態(tài)背景或可控物體顏色變化）。

因此，具備良好泛化能力的智能體可以在面臨未見(jiàn)干擾的環(huán)境時(shí)依然保持高性能執(zhí)行任務(wù)，無(wú)需大量的重新訓(xùn)練。

盡管現(xiàn)有方法以數(shù)據(jù)增廣、對(duì)比學(xué)習(xí)等技術(shù)增強(qiáng)了智能體面向環(huán)境視覺(jué)干擾的魯棒性，但值得注意的是，這類研究往往僅聚焦于如何從視覺(jué)圖像中提取魯棒的、不隨環(huán)境變化的信息，忽略了下游關(guān)鍵的決策過(guò)程。

這導(dǎo)致這些方法難以捕捉序列數(shù)據(jù)中關(guān)鍵的長(zhǎng)期信息，而這正是視覺(jué)強(qiáng)化學(xué)習(xí)泛化能力的核心因素之一。

為了針對(duì)性地解決這類問(wèn)題，作者在信息瓶頸（Information Bottleneck）框架下，提出了魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法（ROUSER），通過(guò)引入信息瓶頸來(lái)學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長(zhǎng)期信息的向量化表征。

分解狀態(tài)-動(dòng)作對(duì)魯棒表征

本文提出的ROUSER主要包括兩個(gè)核心思路：

一是為了學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長(zhǎng)期信息的向量化表征，ROUSER基于信息瓶頸框架，通過(guò)最大化表征與動(dòng)作價(jià)值之間的互信息，來(lái)保留長(zhǎng)期信息；

同時(shí)，最小化表征與狀態(tài)-動(dòng)作對(duì)之間的互信息，以濾除無(wú)關(guān)特征。

二是由于動(dòng)作價(jià)值是未知的，無(wú)法直接最大化表征與動(dòng)作價(jià)值之間的互信息，因此ROUSER提出將狀態(tài)-動(dòng)作對(duì)的魯棒表征分解為僅包含單步獎(jiǎng)勵(lì)信息的表征和下一狀態(tài)-動(dòng)作對(duì)的魯棒表征。

這樣一來(lái)，可以借助已知的單步獎(jiǎng)勵(lì)，計(jì)算用于魯棒表征學(xué)習(xí)的損失函數(shù)。

方法架構(gòu)圖如下所示：

為實(shí)現(xiàn)上述思路，ROUSER主要包括兩個(gè)核心模塊——獎(jiǎng)勵(lì)模型（Reward Model）和魯棒損失（Robust Loss）。

其中獎(jiǎng)勵(lì)模型旨在學(xué)習(xí)僅包含單步獎(jiǎng)勵(lì)信息的表征。

具體來(lái)說(shuō)，獎(jiǎng)勵(lì)模型基于信息瓶頸框架，最大化從狀態(tài)-動(dòng)作對(duì)中提取的獎(jiǎng)勵(lì)表征與單步獎(jiǎng)勵(lì)之間的互信息，同時(shí)最小化獎(jiǎng)勵(lì)表征與對(duì)應(yīng)狀態(tài)-動(dòng)作對(duì)之間的互信息，從而引導(dǎo)模型學(xué)習(xí)僅包含獎(jiǎng)勵(lì)信息的表征。

魯棒損失則旨在構(gòu)建可計(jì)算的損失函數(shù)，學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長(zhǎng)期信息的向量化表征。

基于對(duì)狀態(tài)-動(dòng)作對(duì)的魯棒表征分解技術(shù)，構(gòu)建遞歸式損失函數(shù)，僅利用獎(jiǎng)勵(lì)模型編碼的表征即可直接計(jì)算該損失。

且該部分僅為損失函數(shù)的構(gòu)建，并沒(méi)有更改強(qiáng)化學(xué)習(xí)中批評(píng)家（Critic）模型的架構(gòu)。最終旨在學(xué)習(xí)的向量化表征為批評(píng)家模型的中間層嵌入（Embedding）。

本文理論證明了ROUSER能夠利用學(xué)習(xí)到的向量化表征準(zhǔn)確估計(jì)決策目標(biāo)，即動(dòng)作價(jià)值。

基于這一理論結(jié)果，ROUSER能有效結(jié)合各類連續(xù)和離散控制的視覺(jué)強(qiáng)化學(xué)習(xí)算法，以提升其對(duì)動(dòng)作價(jià)值估計(jì)的準(zhǔn)確性，從而提升整體魯棒性。

實(shí)驗(yàn)結(jié)果

在視覺(jué)強(qiáng)化學(xué)習(xí)泛化性研究的12個(gè)連續(xù)控制任務(wù)中，ROUSER于11個(gè)任務(wù)上取得了最優(yōu)性能。

其中下圖的6個(gè)任務(wù)是智能體面向物體動(dòng)態(tài)顏色變化干擾的泛化性能。

下圖的6個(gè)任務(wù)展示了智能體面向背景干擾的泛化性能。

ROUSER方法的一大特點(diǎn)是可以兼容離散控制任務(wù)，本文在Procgen環(huán)境中進(jìn)行了相關(guān)實(shí)驗(yàn)。

如下表所示，當(dāng)ROUSER與基于價(jià)值的VRL方法結(jié)合應(yīng)用于非連續(xù)控制任務(wù)時(shí)，也能夠提升智能體的泛化性能。

更多內(nèi)容請(qǐng)參考原論文與項(xiàng)目主頁(yè)。

論文第一作者楊睿，中國(guó)科學(xué)技術(shù)大學(xué)2019級(jí)碩博連讀生，師從王杰教授、李斌教授，主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、自動(dòng)駕駛等。

論文地址：
https://openreview.net/pdf?id=PDtMrogheZ

責(zé)任編輯：張燕妮來(lái)源：量子位

模型訓(xùn)練 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中科大提出動(dòng)作價(jià)值表征學(xué)習(xí)新方法，率先填補(bǔ)長(zhǎng)期決策信息的缺失

傳統(tǒng)方法難以捕捉關(guān)鍵長(zhǎng)期信息

分解狀態(tài)-動(dòng)作對(duì)魯棒表征

實(shí)驗(yàn)結(jié)果