成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="4c8qa"></li>

<cite id="4c8qa"></cite>

<abbr id="4c8qa"><tbody id="4c8qa"></tbody></abbr>

<button id="4c8qa"><tbody id="4c8qa"></tbody></button><rt id="4c8qa"><tr id="4c8qa"></tr></rt>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

ICML 2024：從視覺語言基礎模型反饋中進行強化學習原創

發布于 2024-5-27 12:57

瀏覽

0收藏

獎勵工程長期以來一直是強化學習研究中的挑戰，因為它通常需要大量人力投入。在本文中，研究人員提出了RL-VLM-F，它可以自動生成代理學習新任務的獎勵函數，僅利用任務目標的文本描述和代理的視覺觀察，通過利用視覺語言基礎模型（VLMs）的反饋。該方法的關鍵在于查詢這些模型，根據任務目標的文本描述對代理的圖像觀察對進行偏好，并從偏好標簽中學習獎勵函數。RL-VLM-F成功地在各種領域中產生了有效的獎勵和策略，包括經典控制，以及剛性、關節和可變形物體的操作，而無需人工監督，在相同假設下優于使用大型預訓練模型進行獎勵生成的先前方法。

RL-VLM-F組件

RL-VLM-F自動為代理生成獎勵函數，以學習新任務，僅利用任務目標的文本描述和代理的視覺觀察，通過利用視覺語言基礎模型（VLMs）的反饋。該方法的關鍵在于查詢這些模型，根據任務目標的文本描述對代理的圖像觀察對進行偏好，并從偏好標簽中學習獎勵函數。研究人員使用基于偏好的強化學習同時學習策略和獎勵函數。

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

RL-VLM-F查詢設計

RL-VLM-F兩階段查詢：首先，查詢VLM以生成自由形式的響應，比較兩個圖像分別完成任務的效果。接下來，使用第一階段的文本響應提示VLM，以提取對兩個圖像的偏好標簽。研究人員對所有任務使用相同的查詢模板，將任務描述替換為特定任務的目標描述。

RL-VLM-F：提示和策略

下面展示了該方法和基線在七項任務上的策略執行，包括剛性、關節和可變形物體的操作。對于每個任務，展示了任務目標的簡短文本描述，與下面的模板提示結合起來，形成用于查詢VLM偏好的完整提示。

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

折疊布料對角線

任務描述：“將布料從左上角對角線對折到右下角”

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

拉直繩子

任務描述：“拉直藍色繩子”

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

不溢水地傳遞水

任務描述：“將裝水的容器移動到距離紅色圓圈盡可能近的地方，而不會導致太多水滴溢出”

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

將足球移入球門

任務描述：“將足球移入球門”

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

打開抽屜

任務描述：“打開抽屜”

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

將方塊掃入洞中

任務描述：“使綠色方塊與洞之間的距離最小化”

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

CartPole

任務描述：“在黑色小車上平衡棕色桿，使其直立”

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

實驗和結果

研究人員對RL-VLM-F在各種任務上進行了全面評估，包括經典控制，以及剛性、關節和可變形物體的操作，無需人工監督，在相同假設下優于使用大型預訓練模型進行獎勵生成的先前方法。

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

與基線方法的比較

如所有對比方法在7項任務上的學習曲線所示，RL-VLM-F在所有任務上均優于所有基線，并且在7項任務中的6項任務上與地面真實偏好的表現相匹配或超越。

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

VLM偏好標簽的準確性

研究人員提供了與環境獎勵函數定義的地面真實偏好標簽相比，VLM偏好標簽準確性的分析。x軸表示圖像對之間的不同水平，離散為10個區間，其中差異是指與圖像對關聯的地面真實任務進展之間的差異。y軸顯示了VLM偏好標簽正確、不正確或無法對圖像對進行偏好的比例。像人類一樣，當兩個圖像在實現目標方面有明顯不同時，VLM更擅長評估兩個圖像，并且當兩個圖像非常相似時，其表現較差。

ICML 2024：從視覺語言基礎模型反饋中進行強化學習-AI.x社區

學習獎勵與地面真實任務進展的一致性

研究人員比較了RL-VLM-F學習的獎勵與地面真實任務進展在3個MetaWorld任務上的一致性。如所示，RL-VLM-F生成的獎勵與地面真實任務進展更一致。學習的獎勵是通過3個具有不同種子的訓練獎勵模型進行平均的，陰影區域表示標準誤差。

譯自（有刪改）：https://rlvlmf2024.github.io

本文轉載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/tPUIxt3Msrra5kiLB_dftg??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

視覺語言基礎模型

贊

收藏

回復

舉報

回復

相關推薦

擴散模型如何幫助創建更好的強化學習系統

51CTO內容精選 ? 2870瀏覽 ? 0回復
Nature：最大擴散強化學習

ceesoft ? 4047瀏覽 ? 0回復
機器學習有哪些類型？監督學習、無監督學習、強化學習、深度學習等等！

parson2000 ? 3968瀏覽 ? 0回復
機器學習有哪些類型？監督學習、無監督學習、強化學習、深度學習等等

parson2000 ? 4656瀏覽 ? 0回復
大模型的訓練與調優，SFT(監督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 8049瀏覽 ? 0回復
大模型的訓練與調優，SFT(監督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 8739瀏覽 ? 0回復
從具身智能再談強化學習，為什么需要強化學習，以及強化學習的應用場景

AI探索時代 ? 3273瀏覽 ? 0回復
為啥強化學習開始成為了大語言模型（LLM）的新寵？

智駐未來 ? 2896瀏覽 ? 0回復
基于多模態深度強化學習的投資組合優化

靈度智能 ? 3240瀏覽 ? 0回復
基于深度強化學習的投資組合配置動態優化

靈度智能 ? 3876瀏覽 ? 0回復
DeepSeek-R1：通過強化學習激發大語言模型的推理潛能

柏企閱文 ? 4631瀏覽 ? 0回復
一文搞懂 DeepSeek - 強化學習和蒸餾

玄姐聊AGI ? 3255瀏覽 ? 0回復
斯坦福大學團隊使用多智能體強化學習訓練社交推理語言模型

xuxiangda ? 2484瀏覽 ? 0回復
強化學習與軟件工程：開源軟件獎勵演化的強化學習

AI研究前瞻 ? 2100瀏覽 ? 0回復
視覺"頓悟時刻"被破解！MM-Eureka：大規模強化學習觸發多模態模型能力涌現

angel ? 1827瀏覽 ? 0回復
Logic-RL：基于規則強化學習的推理釋放

頓數AI ? 2236瀏覽 ? 0回復
Search-R1：強化學習增強大語言模型推理+搜索能力

十一月雨_55 ? 2455瀏覽 ? 0回復
強化學習強在哪里？基礎探索

柏企閱文 ? 1562瀏覽 ? 0回復
Fin-R1：通過強化學習實現金融推理的大語言模型

AIRoobt ? 1739瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-09 09:10:30發布
預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-03 15:46:55發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移

下一篇： Transformers學習上下文強化學習的時間差分方法

社區精華內容

目錄

主站蜘蛛池模板：国产欧美日韩久久久 | 日韩精品一区二区三区中文在线 | 一区二区三区视频免费看 | 精品不卡| 国产成人精品999在线观看 | 天天射天天干 | 精品久久影院 | 91视频网址| 盗摄精品av一区二区三区 | 久久精品小视频 | 日韩成人精品一区 | 成人一区二区三区在线 | 羞羞视频网| 亚洲国产精品成人无久久精品 | a视频在线 | 97色在线观看免费视频 | 亚洲品质自拍视频网站 | 久久久做| 一二三四在线视频观看社区 | 羞羞的视频免费看 | 久久99精品久久久久久 | 国产免费av在线 | 美国黄色毛片 | 久久久久久久久一区 | 在线观看成人 | 日韩网站在线 | 久久亚洲二区 | 欧美亚洲视频在线观看 | 二区三区av | 天天射天天干 | 黄色一级大片在线观看 | 日本不卡一区二区三区在线观看 | 国产精品九九视频 | 免费污视频 | 亚洲免费在线观看 | 九色国产| 91久久久久久久久久久久久 | 色婷婷av777 av免费网站在线 | 福利视频一二区 | 欧美一级淫片免费视频黄 | 国产精品无码久久久久 |

<code id="qy8wk"><wbr id="qy8wk"></wbr></code>

<button id="qy8wk"><em id="qy8wk"></em></button>

<rt id="qy8wk"><tr id="qy8wk"></tr></rt>

<abbr id="qy8wk"><tbody id="qy8wk"></tbody></abbr>