成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從數據增強的隱藏作用出發,揭示視覺強化學習可塑性損失的獨特機制

人工智能 新聞
基于對視覺強化學習中可塑性損失的深入分析,該研究最終提出了一種創新的訓練方法 —— 自適應回放比例。

Sutton 等研究人員近期在《Nature》上發表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一個重要發現:在持續學習環境中,標準深度學習方法的表現竟不及淺層網絡。研究指出,這一現象的主要原因是 "可塑性損失"(Plasticity Loss):深度神經網絡在面對非平穩的訓練目標持續更新時,會逐漸喪失從新數據中學習的能力。

深度強化學習任務中的神經網絡實際上面臨著更為嚴峻的可塑性損失問題。這源于強化學習智能體必須通過與環境的持續互動來不斷調整其策略,使得非平穩的數據流和優化目標成為深度強化學習范式中的固有特征。值得注意的是,即使在單任務強化學習中,在線數據收集和策略更新也會導致數據分布和優化目標持續動態變化。因此,嚴重的可塑性損失已然成為制約深度強化學習算法樣本利用效率的關鍵瓶頸。

要突破視覺強化學習樣本利用效率低下這一瓶頸,關鍵在于深入解構深度強化學習中神經網絡可塑性損失的細節,從而明確問題的根源。針對這一挑戰,來自清華大學、悉尼大學、華盛頓大學、京東探索研究院和南洋理工大學的研究人員展開了一項全面而深入的研究。他們選取視覺強化學習任務作為深度強化學習的典型代表,創新性地從數據、模塊和訓練階段三個關鍵角度對神經網絡的可塑性損失特征進行分析。

圖片

  • 論文鏈接:https://arxiv.org/abs/2310.07418
  • 代碼鏈接:https://github.com/Guozheng-Ma/Adaptive-Replay-Ratio

這項研究不僅解釋了視覺強化學習中一些此前難以理解的反常現象,還揭示了一系列與直覺相悖的有趣結論。該研究成果已在 ICLR 2024 上發表,本文將對其中一系列引人深思的發現進行進一步梳理和總結。其中最核心的要點可概括如下:

1. 揭示了數據增強的作用機制:簡單的數據增強能夠顯著提升視覺強化學習的樣本利用效率,其效果令人矚目。在自動駕駛任務 CARLA 中,引入數據增強將性能提高至基準的 235%。更令人驚訝的是,在 DeepMind Control suite 的 9 種機器人控制任務中,數據增強平均將性能提升至基準的 431%。然而,盡管這些驚人的效果早已被觀察到,但數據增強為何能帶來如此顯著的性能提升一直是一個未解之謎。該研究的突破性發現揭示了視覺強化學習中數據增強背后的作用機制:它能直接有效地緩解訓練過程中的可塑性損失。

2. 明確了樣本利用效率的關鍵瓶頸:過去多年,學界普遍認為導致視覺強化學習樣本利用效率低下的主要瓶頸在于訓練視覺表征器的難度。然而,這項研究通過一系列巧妙的實驗,顛覆了這一長期以來的觀點。研究結果表明,目前限制視覺強化學習樣本利用效率的關鍵因素并非編碼器(Encoder)的視覺表征能力,而是評價者網絡(Critic)的可塑性損失

3. 突出了訓練早期干預的重要性:可塑性損失指的是模型的學習能力隨著訓練不斷減弱的現象。然而,不同訓練階段對于避免災難性可塑性損失的作用是否有所不同,這一問題此前一直未被深入探索。該研究填補了這一空白,揭示了一個關鍵發現:訓練早期對 Critic 網絡可塑性的干預極為重要:若未能在訓練早期及時將網絡可塑性恢復到高水平,將會導致訓練后期難以逆轉的災難性可塑性損失

從視覺強化學習中的數據增強開始

圖片

數據增強已成為實現高樣本利用效率的視覺強化學習算法中不可或缺的組件。與監督學習中數據增強僅帶來漸進式改進不同,在多種視覺強化學習任務中,數據增強對算法效果起到了決定性作用。如上圖所示,在不使用數據增強的情況下,算法幾乎無法訓練出有效的策略。相反,僅僅引入對輸入觀察圖像的簡單數據增強,就能在不修改算法其他部分的前提下,實現一個具有高漸進效果和樣本效率的視覺強化學習算法。

這種顯著的提升顯然無法用傳統視覺任務中數據增強的作用機理來解釋。更可能的是,數據增強有效緩解或解決了強化學習中的一個關鍵瓶頸。在沒有數據增強的情況下,智能體的性能在短暫上升后幾乎停滯,這一現象與智能體遭受可塑性損失,無法從新收集的數據中學習的后果非常吻合。基于這一觀察,該研究設計了巧妙的實驗,旨在驗證數據增強的背后作用機制是否確實在于有效緩解了災難性的可塑性損失。

Reset 是一種簡單而直接的方法,通過周期性地重新初始化智能體網絡最后幾層全連接層來恢復神經網絡的可塑性。在這項研究中,研究人員巧妙地將 Reset 作為一種診斷工具,用來判斷使用與不使用數據增強時網絡的可塑性損失情況。實驗結果揭示了以下關鍵發現:

  • 在不使用數據增強的情況下,實施 Reset 均能夠帶來顯著的性能提升。這明確地表明,在缺乏數據增強的訓練過程中,網絡確實經歷了嚴重的可塑性損失。
  • 但當引入數據增強后,Reset 的實施只帶來輕微的改善,有時甚至會導致性能下降。這一結果表明,只通過數據增強就能有效提升智能體的可塑性。

這一巧妙的實驗證明數據增強能夠非常顯著地緩解視覺強化學習訓練過程中的可塑性損失,從而解釋了為什么數據增強對于提高樣本利用效率如此關鍵。通過有效維持神經網絡的可塑性,數據增強實際上延長了神經網絡的有效學習期,使其能夠更充分地利用每一個訓練樣本。

圖片

研究還對比了數據增強和其他先前提出的用來緩解可塑性損失的方法。實驗結果再次證明,作為一種從數據角度出發(data-centric)的方法,數據增強在緩解可塑性損失方面展現出卓越的效果,相對于目前已有的其他方案具有明顯優勢。

解構視覺強化學習不同模塊中可塑性損失的不同影響

圖片

相較于基于狀態向量的強化學習任務,視覺強化學習一直面臨著樣本利用效率嚴重低下的困擾。近年來,縮小基于圖像和基于狀態向量的強化學習在樣本利用效率上的差距已成為整個視覺強化學習社區關注的重點。這兩種學習范式的關鍵區別在于:視覺強化學習需要在進行策略優化的同時進行表征學習。基于這一認識,大量研究致力于通過改進視覺表征學習來提升視覺強化學習的樣本利用效率。常見的方法包括添加額外的輔助表征任務,或使用預訓練的視覺編碼器(Encoder)。但是,高維視覺表征真的是影響視覺強化學習樣本利用效率的關鍵瓶頸嗎?

圖片

該研究通過一個巧妙的實驗回答了這個問題。研究者采用了 PIE-G 提出的預訓練編碼器方案,并測試了數據增強對訓練過程的影響。這個實驗設計有兩個關鍵點:

  • 使用在 ImageNet 上預訓練的編碼器,確保了足夠的視覺表征能力。
  • 在整個訓練過程中保持編碼器不變,排除了數據增強對編碼器的直接影響。

研究假設:如果表征學習是當前限制樣本利用效率的關鍵,或者可塑性損失主要發生在編碼器,那么數據增強的使用與否不應顯著影響算法的訓練過程。

圖片

然而,實驗結果令人驚訝:

  • 數據增強對基于預訓練編碼器的視覺強化學習的樣本利用效率產生了顯著影響。
  • 在不使用數據增強的情況下,即使是簡單的 Walker Walk 任務,智能體的性能在訓練后期也明顯停滯,表現出嚴重的可塑性損失。

這一發現具有重要意義:即使有了良好的視覺表征,視覺強化學習仍然存在嚴重的可塑性損失。這表明對于當前的視覺強化學習算法,高維視覺的表征已經不構成影響樣本利用效率的關鍵瓶頸。更為關鍵的是,該實驗證明了嚴重的可塑性損失并非發生在編碼器模塊,而應該是存在于 Actor 或 Critic 中。

研究者進一步使用可塑性注入(Plasticity Injection)作為可靠的診斷工具來最終判定災難性的可塑性損失究竟發生在 Actor 還是 Critic 中。不同于 Reset,可塑性注入在恢復網絡可塑性的同時不會破壞網絡現有知識,因此不會出現明顯的性能波動。這使得可塑性注入更適合用來作為判斷特定網絡模塊是否發生災難性可塑性損失的診斷工具。

圖片

實驗結果揭示了兩個關鍵發現:

  • 在使用數據增強的情況下,對 Actor 或者 Critic 實施可塑性注入都不會明顯影響智能體的訓練過程。這表明在 Walker Run 任務中,僅僅通過使用數據增強就足以維持訓練所需的網絡可塑性。
  • 在初始 100 萬步訓練中不使用數據增強的情況下,對 Critic 實施可塑性注入會導致性能顯著提升。相反,對 Actor 進行可塑性注入也并不能使智能體恢復正常訓練。這一結果充分證明,Critic 嚴重的可塑性損失是造成視覺強化學習樣本利用效率嚴重低下的關鍵原因。

圖片

分析視覺強化學習不同訓練階段中可塑性損失的不同性質

圖片

最后,該研究設計了一個巧妙的實驗,通過在訓練過程中的不同時間點開啟或關閉數據增強,來探究數據增強在不同訓練階段對解決可塑性損失的影響。具體來說,他們在訓練進行到三分之一時改變數據增強的使用狀態,觀察其對訓練效果的影響。這個實驗揭示了兩個重要發現:

  • 在 Critic 的可塑性已經恢復后停止使用數據增強,并不會明顯影響訓練效率。這表明在訓練的后期,不需要采取特定干預來維持可塑性。
  • 當可塑性已經顯著喪失,且未能在早期階段及時干預的情況下,后期引入數據增強也無法使智能體恢復正常的訓練。這一觀察強調了在訓練早期維持可塑性的至關重要性,否則,這種損失將變得無法挽回

這一實驗不僅證實了數據增強在訓練早期階段的關鍵作用,更重要的是,它揭示了可塑性損失的不可逆特性。實驗結果表明,如果在訓練早期沒有通過有效干預(如數據增強)使 Critic 網絡的可塑性恢復到較高水平,就會導致不可逆的災難性可塑性損失。

圖片

在訓練的初始階段,由于收集到的經驗數據質量低且數量有限,通過自舉學習所得出的訓練目標(Target Q Value)表現出高度的非平穩性,并顯著偏離真實的 Q 值。這種嚴重的非平穩性導致 Critic 的可塑性迅速下降,使其失去從新收集數據中繼續優化策略的能力。隨之,智能體持續收集低質量的數據,形成了一個惡性循環。這一連鎖反應最終阻礙了智能體獲得有效策略,導致訓練早期階段出現災難性的可塑性損失。

然而,訓練過程的后期呈現出不同的特征:盡管 Critic 的可塑性在訓練早期恢復到高水平后仍然會緩慢下降,但這種下降可以被理解為逐步逼近當前任務最優值函數的過程。對于不需要智能體保持持續學習能力的單任務視覺強化學習而言,這種后期的可塑性損失被視為良性的。

這種在訓練不同階段所觀察到的可塑性變化差異,為解決視覺強化學習中的可塑性損失挑戰提供了新的視角,暗示了針對訓練不同階段采取差異化策略的可能性。

基于對視覺強化學習中可塑性損失的深入分析,該研究最終提出了一種創新的訓練方法 —— 自適應回放比例。這種方法巧妙地根據 Critic 網絡的可塑性水平動態調整回放比例(Replay Ratio),成功破解了視覺強化學習算法難以使用高回放比例的長期困境。對該方法的技術細節感興趣的讀者,可以前往論文原文深入了解。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-09-27 15:37:21

深度學習算法

2024-07-08 13:02:06

2025-05-15 09:04:00

2024-08-29 14:20:00

AI訓練

2021-11-25 07:46:06

云計算云計算環境云應用

2017-07-25 16:04:31

概念應用強化學習

2023-05-05 13:11:16

2025-06-13 14:15:57

2024-01-18 15:10:47

開源模型開源InternLM2

2020-11-12 19:31:41

強化學習人工智能機器學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2022-11-07 07:28:39

大腦創傷功能

2022-07-11 11:14:47

強化學習AI基于模型

2020-06-05 08:09:01

Python強化學習框架

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2010-07-09 10:32:56

路由器協議

2022-11-02 14:02:02

強化學習訓練

2023-07-20 15:18:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品999 | 夜夜草| 国产精品夜间视频香蕉 | 日韩毛片在线免费观看 | 欧美影院 | 免费观看黄 | 国产精品视频网 | 95国产精品 | 国产精品成人一区二区 | 欧美人妇做爰xxxⅹ性高电影 | 国产一区二区精品自拍 | 一级欧美 | 日韩电影免费在线观看中文字幕 | 一区免费观看 | 国产小u女发育末成年 | 草久久 | 午夜视频一区 | 国产伊人精品 | 中文字幕av亚洲精品一部二部 | 欧美日韩中文字幕在线播放 | 久久精品一区 | 天天操天天射综合网 | 亚洲日韩中文字幕一区 | 久久一热 | 亚洲成人国产综合 | 国产农村妇女毛片精品久久麻豆 | 天天综合网天天综合色 | 欧美激情视频一区二区三区免费 | 91在线视频网址 | 麻豆成人在线视频 | 国产在线精品一区二区三区 | 日韩一三区 | 国产欧美久久一区二区三区 | 中文字幕在线免费视频 | 亚洲精品乱码久久久久久按摩观 | av不卡一区 | 国产一区二区三区在线视频 | 日本精品视频一区二区三区四区 | 日韩国产在线 | 免费a网| 性高湖久久久久久久久aaaaa |