成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

擴(kuò)散模型如何構(gòu)建新一代決策智能體？超越自回歸，同時(shí)生成長(zhǎng)序列規(guī)劃軌跡

作者：機(jī)器之心 2024-03-11 00:20:00

人工智能新聞

來(lái)自上海交通大學(xué)的團(tuán)隊(duì)撰寫的綜述論文《Diffusion Models for Reinforcement Learning: A Survey》梳理了擴(kuò)散模型在強(qiáng)化學(xué)習(xí)相關(guān)領(lǐng)域的應(yīng)用。

設(shè)想一下，當(dāng)你站在房間內(nèi)，準(zhǔn)備向門口走去，你是通過自回歸的方式逐步規(guī)劃路徑嗎？實(shí)際上，你的路徑是一次性整體生成的。

近期的研究表明，采用擴(kuò)散模型的規(guī)劃模塊能夠同時(shí)生成長(zhǎng)序列的軌跡規(guī)劃，這更加符合人類的決策模式。此外，擴(kuò)散模型在策略表征和數(shù)據(jù)合成方面也能為現(xiàn)有的決策智能算法提供更優(yōu)的選擇。

來(lái)自上海交通大學(xué)的團(tuán)隊(duì)撰寫的綜述論文《Diffusion Models for Reinforcement Learning: A Survey》梳理了擴(kuò)散模型在強(qiáng)化學(xué)習(xí)相關(guān)領(lǐng)域的應(yīng)用。綜述指出現(xiàn)有強(qiáng)化學(xué)習(xí)算法面臨長(zhǎng)序列規(guī)劃誤差累積、策略表達(dá)能力受限、交互數(shù)據(jù)不足等挑戰(zhàn)，而擴(kuò)散模型已經(jīng)展現(xiàn)出解決強(qiáng)化學(xué)習(xí)問題中的優(yōu)勢(shì)，并為應(yīng)對(duì)上述長(zhǎng)期以來(lái)的挑戰(zhàn)帶來(lái)新的思路。

論文鏈接：https://arxiv.org/abs/2311.01223

項(xiàng)目地址：https://github.com/apexrl/Diff4RLSurvey

該綜述根據(jù)擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中扮演的角色對(duì)現(xiàn)有工作進(jìn)行分類，并列舉了不同強(qiáng)化學(xué)習(xí)相關(guān)場(chǎng)景下擴(kuò)散模型的成功案例。綜述最后對(duì)用擴(kuò)散模型解決強(qiáng)化學(xué)習(xí)問題的領(lǐng)域提出未來(lái)發(fā)展方向的展望。

圖 1：擴(kuò)散模型在經(jīng)典的智能體 - 環(huán)境 - 經(jīng)驗(yàn)回放池循環(huán)中與以往解決方案相比起到不同作用的示意圖。

擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中扮演的角色

文章根據(jù)擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中扮演角色的不同，分類比較了擴(kuò)散模型的應(yīng)用方式和特點(diǎn)。

圖 2：擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中扮演的不同角色。

軌跡規(guī)劃

強(qiáng)化學(xué)習(xí)中的規(guī)劃指通過使用動(dòng)態(tài)模型在想象中做決策，再選擇最大化累積獎(jiǎng)勵(lì)的適當(dāng)動(dòng)作。規(guī)劃的過程通常會(huì)探索各種動(dòng)作和狀態(tài)的序列，從而提升決策的長(zhǎng)期效果。在基于模型的強(qiáng)化學(xué)習(xí)（MBRL）框架中，規(guī)劃序列通常以自回歸方式進(jìn)行模擬，導(dǎo)致累積誤差。擴(kuò)散模型可以同時(shí)生成多步規(guī)劃序列。現(xiàn)有文章用擴(kuò)散模型生成的目標(biāo)非常多樣，包括 (s,a,r)、(s,a)、僅有 s、僅有 a 等等。為了在在線評(píng)估時(shí)生成高獎(jiǎng)勵(lì)的軌跡，許多工作使用了有分類器或無(wú)分類器的引導(dǎo)采樣技術(shù)。

策略表征

擴(kuò)散規(guī)劃器更近似傳統(tǒng)強(qiáng)化學(xué)習(xí)中的 MBRL，與之相對(duì)，將擴(kuò)散模型作為策略更類似于無(wú)模型強(qiáng)化學(xué)習(xí)。Diffusion-QL 首先將擴(kuò)散策略與 Q 學(xué)習(xí)框架結(jié)合。由于擴(kuò)散模型擬合多模態(tài)分布的能力遠(yuǎn)超傳統(tǒng)模型，擴(kuò)散策略在由多個(gè)行為策略采樣的多模態(tài)數(shù)據(jù)集中表現(xiàn)良好。擴(kuò)散策略與普通策略相同，通常以狀態(tài)作為條件生成動(dòng)作，同時(shí)考慮最大化 Q (s,a) 函數(shù)。Diffusion-QL 等方法在擴(kuò)散模型訓(xùn)練時(shí)加上加權(quán)的價(jià)值函數(shù)項(xiàng)，而 CEP 從能量的視角構(gòu)造加權(quán)回歸目標(biāo)，用價(jià)值函數(shù)作為因子，調(diào)整擴(kuò)散模型學(xué)到的動(dòng)作分布。

數(shù)據(jù)合成

擴(kuò)散模型可以作為數(shù)據(jù)合成器，來(lái)緩解離線或在線強(qiáng)化學(xué)習(xí)中數(shù)據(jù)稀少的問題。傳統(tǒng)強(qiáng)化學(xué)習(xí)數(shù)據(jù)增強(qiáng)方法通常只能對(duì)原有數(shù)據(jù)進(jìn)行小幅擾動(dòng)，而擴(kuò)散模型強(qiáng)大的分布擬合能力使其可以直接學(xué)習(xí)整個(gè)數(shù)據(jù)集的分布，再采樣出新的高質(zhì)量數(shù)據(jù)。

其他類型

除了以上幾類，還有一些零散的工作以其他方式使用擴(kuò)散模型。例如，DVF 利用擴(kuò)散模型估計(jì)值函數(shù)。LDCQ 首先將軌跡編碼到隱空間上，再在隱空間上應(yīng)用擴(kuò)散模型。PolyGRAD 用擴(kuò)散模型學(xué)習(xí)環(huán)境動(dòng)態(tài)轉(zhuǎn)移，允許策略和模型交互來(lái)提升策略學(xué)習(xí)效率。

在不同強(qiáng)化學(xué)習(xí)相關(guān)問題中的應(yīng)用

離線強(qiáng)化學(xué)習(xí)

擴(kuò)散模型的引入有助于離線強(qiáng)化學(xué)習(xí)策略擬合多模態(tài)數(shù)據(jù)分布并擴(kuò)展了策略的表征能力。Diffuser 首先提出了基于分類器指導(dǎo)的高獎(jiǎng)勵(lì)軌跡生成算法并啟發(fā)了大量的后續(xù)工作。同時(shí)，擴(kuò)散模型也能應(yīng)用在多任務(wù)與多智能體強(qiáng)化學(xué)習(xí)場(chǎng)景。

圖 3：Diffuser 軌跡生成過程和模型示意圖

在線強(qiáng)化學(xué)習(xí)

研究者證明擴(kuò)散模型對(duì)在線強(qiáng)化學(xué)習(xí)中的價(jià)值函數(shù)、策略也具備優(yōu)化能力。例如，DIPO 對(duì)動(dòng)作數(shù)據(jù)重標(biāo)注并使用擴(kuò)散模型訓(xùn)練，使策略避免了基于價(jià)值引導(dǎo)訓(xùn)練的不穩(wěn)定性；CPQL 則驗(yàn)證了單步采樣擴(kuò)散模型作為策略能夠平衡交互時(shí)的探索和利用。

模仿學(xué)習(xí)

模仿學(xué)習(xí)通過學(xué)習(xí)專家演示數(shù)據(jù)來(lái)重建專家行為。擴(kuò)散模型的應(yīng)用有助于提高策略表征能力以及學(xué)習(xí)多樣的任務(wù)技能。在機(jī)器人控制領(lǐng)域，研究發(fā)現(xiàn)擴(kuò)散模型能夠在保持時(shí)序穩(wěn)定性的條件下預(yù)測(cè)閉環(huán)動(dòng)作序列。Diffusion Policy 采用圖像輸入的擴(kuò)散模型生成機(jī)器人動(dòng)作序列。實(shí)驗(yàn)表明擴(kuò)散模型能夠生成有效閉環(huán)動(dòng)作序列，同時(shí)保證時(shí)序一致性。

圖 4：Diffusion Policy 模型示意圖

軌跡生成

擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中的軌跡生成主要聚焦于人類動(dòng)作生成以及機(jī)器人控制兩類任務(wù)。擴(kuò)散模型生成的動(dòng)作數(shù)據(jù)或視頻數(shù)據(jù)被用于構(gòu)建仿真模擬器或訓(xùn)練下游決策模型。UniPi 訓(xùn)練了一個(gè)視頻生成擴(kuò)散模型作為通用策略，通過接入不同的逆動(dòng)力學(xué)模型來(lái)得到底層控制命令，實(shí)現(xiàn)跨具身的機(jī)器人控制。

圖 5：UniPi 決策過程示意圖。

數(shù)據(jù)增強(qiáng)

擴(kuò)散模型還可以直接擬合原始數(shù)據(jù)分布，在保持真實(shí)性的前提下提供多樣的動(dòng)態(tài)擴(kuò)展數(shù)據(jù)。例如，SynthER 和 MTDiff-s 通過擴(kuò)散模型生成了訓(xùn)練任務(wù)的完整環(huán)境轉(zhuǎn)移信息并將其應(yīng)用于策略的提升，且結(jié)果顯示生成數(shù)據(jù)的多樣程度以及準(zhǔn)確性都優(yōu)于歷史方法。

圖 6：MTDiff 進(jìn)行多任務(wù)規(guī)劃和數(shù)據(jù)增強(qiáng)的示意圖

未來(lái)展望

生成式仿真環(huán)境

如圖 1 所示，現(xiàn)有研究主要利用擴(kuò)散模型來(lái)克服智能體和經(jīng)驗(yàn)回放池的局限性，利用擴(kuò)散模型增強(qiáng)仿真環(huán)境的研究比較少。Gen2Sim 利用文生圖擴(kuò)散模型在模擬環(huán)境中生成多樣化的可操作物體來(lái)提高機(jī)器人精密操作的泛化能力。擴(kuò)散模型還有可能在仿真環(huán)境中生成狀態(tài)轉(zhuǎn)移函數(shù)、獎(jiǎng)勵(lì)函數(shù)或多智能體交互中的對(duì)手行為。

加入安全約束

通過將安全約束作為模型的采樣條件，基于擴(kuò)散模型的智能體可以做出滿足特定約束的決策。擴(kuò)散模型的引導(dǎo)采樣允許通過學(xué)習(xí)額外的分類器來(lái)不斷加入新的安全約束，而原模型的參數(shù)保持不變，從而節(jié)省額外的訓(xùn)練開銷。

檢索增強(qiáng)生成

檢索增強(qiáng)生成技術(shù)能夠通過訪問外部數(shù)據(jù)集增強(qiáng)模型能力，在大語(yǔ)言模型上得到廣泛的應(yīng)用。通過檢索與智能體當(dāng)前狀態(tài)相關(guān)的軌跡并輸入到模型中，基于擴(kuò)散的決策模型在這些狀態(tài)下的性能同樣可能得到提升。如果檢索數(shù)據(jù)集不斷更新，智能體有可能在不重新訓(xùn)練的情況下表現(xiàn)出新的行為。

組合多種技能

與分類器引導(dǎo)或無(wú)分類器引導(dǎo)相結(jié)合，擴(kuò)散模型可以組合多種簡(jiǎn)單技能來(lái)完成復(fù)雜任務(wù)。離線強(qiáng)化學(xué)習(xí)中的早期結(jié)果也表明擴(kuò)散模型可以共享不同技能之間的知識(shí)，從而有可能通過組合不同技能實(shí)現(xiàn)零樣本遷移或持續(xù)學(xué)習(xí)。

表格

圖 7：相關(guān)論文匯總分類表格。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：午夜三级在线观看 | 国产精品99久久久久久宅男 | 一级做a爰片久久毛片免费看 | 日韩欧美一级精品久久 | av黄色片在线观看 | 精品免费国产一区二区三区 | 9久久精品 | 国产精品久久国产精品久久 | 亚洲精品国产成人 | 中文日本在线 | 久久精品亚洲精品国产欧美 | 成人免费久久 | 成人在线观看免费视频 | 国产不卡视频 | 国产盗摄视频 | 亚洲成人99 | 精品乱人伦一区二区三区 | 一区二区三区免费观看 | 成人欧美日韩一区二区三区 | 色偷偷噜噜噜亚洲男人 | 99国产精品视频免费观看一公开 | 日韩精品一区二区三区高清免费 | 久久久久国产精品一区二区 | 亚洲国产成人av | 亚洲一区免费 | 国产精品成人69xxx免费视频 | 热久久久 | 欧美亚洲日本 | 亚洲一区二区三区视频在线 | 日韩在线观看中文字幕 | www.日韩av.com | 日韩高清中文字幕 | 小早川怜子xxxxaⅴ在线 | 欧美国产亚洲一区二区 | 成人欧美一区二区三区黑人孕妇 | 亚洲欧美中文日韩在线v日本 | 欧美日韩中文国产一区发布 | 自拍偷拍第一页 | 91免费版在线观看 | 动漫www.被爆羞羞av44 | 亚洲综合字幕 |