成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

強化學習也涌現?自監督RL擴展到1000層網絡,機器人任務提升50倍

人工智能 新聞
普林斯頓大學和華沙理工的最新研究提出,通過將神經網絡深度從常見的 2-5 層擴展到 1024 層,可以顯著提升自監督 RL 的性能,特別是在無監督目標條件任務中的目標達成能力。

雖然大多數強化學習(RL)方法都在使用淺層多層感知器(MLP),但普林斯頓大學和華沙理工的新研究表明,將對比 RL(CRL)擴展到 1000 層可以顯著提高性能,在各種機器人任務中,性能可以提高最多 50 倍。

paper.png


  • 論文標題:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
  • 論文鏈接:https://arxiv.org/abs/2503.14858
  • GitHub 鏈接:https://github.com/wang-kevin3290/scaling-crl

研究背景

最近在人工智能領域里,強化學習的重要性因為 DeepSeek R1 等研究再次凸顯出來,該方法通過試錯讓智能體學會在復雜環境中完成任務。盡管自監督學習近年在語言和視覺領域取得了顯著突破,但 RL 領域的進展相對滯后。

與其他 AI 領域廣泛采用的深層網絡結構(如 Llama 3 和 Stable Diffusion 3 擁有數百層結構)相比,基于狀態的強化學習任務通常僅使用 2-5 層的淺層網絡。相比之下,在視覺和語言等領域,模型往往只有在規模超過某個臨界值時才能獲得解決特定任務的能力,因此研究人員一直在尋找 RL 中類似的能力涌現現象。

創新方法

普林斯頓大學和華沙理工的最新研究提出,通過將神經網絡深度從常見的 2-5 層擴展到 1024 層,可以顯著提升自監督 RL 的性能,特別是在無監督目標條件任務中的目標達成能力。

圖片

這一發現挑戰了傳統觀點。過去認為訓練大型 RL 網絡困難是因為 RL 問題提供的反饋極為稀少(如長序列觀測后的稀疏獎勵),導致反饋與參數比率很小。傳統觀點認為大型 AI 系統應主要以自監督方式訓練,而強化學習僅用于微調。

研究團隊從三個關鍵方面進行創新:

  • 范式融合:重新定義「強化學習」和「自監督學習」的關系,將它們結合形成自監督強化學習系統,采用對比強化學習(Contrastive RL, CRL)算法;
  • 增加數據量:通過近期的 GPU 加速強化學習框架增加可用數據量;
  • 網絡深度突破:將網絡深度增加到比先前工作深 100 倍,并融合多種架構技術穩定訓練過程,包括:殘差連接(Residual Connections)、層歸一化(Layer Normalization)、Swish 激活函數。

此外,研究還探究了批大小(batch size)和網絡寬度(network width)的相對重要性。

關鍵發現

隨著網絡深度的擴大,我們能發現虛擬環境中的強化學習智能體出現了新行為:在深度 4 時,人形機器人會直接向目標墜落,而在深度 16 時,它學會了直立行走。在人形機器人 U-Maze 環境中,在深度 256 時,出現了一種獨特的學習策略:智能體學會了越過迷宮高墻。

image.png

進一步研究,人們發現在具有高維輸入的復雜任務中,深度擴展的優勢更大。在擴展效果最為突出的 Humanoid U-Maze 環境中,研究人員測試了擴展的極限,并觀察到高達 1024 層的性能持續提升。

image.png

另外,更深的網絡可以學習到更好的對比表征。僅在導航任務中,Depth-4 網絡使用到目標的歐幾里得距離簡單地近似 Q 值,而 Depth-64 能夠捕捉迷宮拓撲,并使用高 Q 值勾勒出可行路徑。

image.png

擴展網絡深度也能提高 AI 的泛化能力。在訓練期間未見過的起始-目標對上進行測試時,與較淺的網絡相比,較深的網絡在更高比例的任務上取得了成功。

技術細節

該研究采用了來自 ResNet 架構的殘差連接,每個殘差塊由四個重復單元組成,每個單元包含一個 Dense 層、一個層歸一化(Layer Normalization)層和 Swish 激活函數。殘差連接在殘差塊的最終激活函數之后立即應用。

在本論文中,網絡深度被定義為架構中所有殘差塊的 Dense 層總數。在所有實驗中,深度指的是 actor 網絡和兩個 critic encoder 網絡的配置,這些網絡被共同擴展。

f2.png

研究貢獻

本研究的主要貢獻在于展示了一種將多種構建模塊整合到單一強化學習方法中的方式,該方法展現出卓越的可擴展性:

  • 實證可擴展性:研究觀察到性能顯著提升,在半數測試環境中提升超過 20 倍,這對應著隨模型規模增長而涌現的質變策略;
  • 網絡架構深度的擴展:雖然許多先前的強化學習研究主要關注增加網絡寬度,但在擴展深度時通常只能報告有限甚至負面的收益。相比之下,本方法成功解鎖了沿深度軸擴展的能力,產生的性能改進超過了僅靠擴展寬度所能達到的;
  • 實證分析:研究表明更深的網絡表現出增強的拼接能力,能夠學習更準確的價值函數,并有效利用更大批量大小帶來的優勢。

不過,拓展網絡深度是以消耗計算量為代價的,使用分布式訓練來提升算力,以及剪枝蒸餾是未來的擴展方向。

預計未來研究將在此基礎上,通過探索額外的構建模塊來進一步發展這一方法。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-12-06 17:38:51

強化學習工具人工智能

2024-05-24 15:53:20

視覺圖像

2024-07-30 11:20:00

圖像視覺

2024-06-13 11:44:43

2024-03-19 00:15:00

機器學習強化學習人工智能

2023-07-20 15:18:42

2024-09-05 08:23:58

2024-12-09 08:45:00

模型AI

2024-10-29 15:20:00

強化學習模型

2023-11-07 07:13:31

推薦系統多任務學習

2023-10-09 12:36:25

AI模型

2024-04-15 08:20:00

機器人技能

2020-09-02 10:36:52

機器人人工智能系統

2020-12-23 06:07:54

人工智能AI深度學習

2025-05-28 09:15:00

AI視覺模型

2023-09-21 10:29:01

AI模型

2023-10-04 09:17:03

機器人AI

2023-11-01 19:17:05

特斯拉機器人Optimus

2023-04-25 11:44:36

垃圾分類AI

2022-07-24 19:24:32

機器學習預訓練模型機器人
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕不卡 | 中文久久 | 在线观看中文字幕dvd播放 | 6080yy精品一区二区三区 | 国产精品久久久久久久久久久久午夜片 | 丁香五月网久久综合 | 精品国产黄色片 | 午夜精品在线 | 97伊人| 久久国产精品免费一区二区三区 | 97精品超碰一区二区三区 | 国产欧美在线一区二区 | 免费在线看黄视频 | 亚洲成人高清 | 亚洲精品第一国产综合野 | 国产欧美在线一区 | 中文字幕乱码一区二区三区 | 精品成人av | 91精品国产91久久久久久吃药 | 一级片在线视频 | 波多野结衣一二三区 | 天天干狠狠操 | www.国产一区 | www.日韩| 美女二区 | 午夜视频在线免费观看 | 欧美日韩在线观看一区 | h在线看| 综合久久av | 欧美影院 | 在线免费看黄 | 99久久精品免费看国产高清 | 伦理片97 | 日韩网站在线观看 | 天天干天天操 | 精品国产免费人成在线观看 | 欧美日韩精品一区二区 | 欧美亚洲一区二区三区 | 亚洲精品视频在线播放 | 日韩av成人 | 天天操天天射综合网 |