成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<tbody id="igcwi"><button id="igcwi"></button></tbody>

<menu id="igcwi"><th id="igcwi"></th></menu>

<option id="igcwi"><ul id="igcwi"></ul></option>
<optgroup id="igcwi"></optgroup>

<center id="igcwi"><delect id="igcwi"></delect></center>

<noscript id="igcwi"></noscript>

<center id="igcwi"><tr id="igcwi"></tr></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

Transformers學習上下文強化學習的時間差分方法原創

發布于 2024-5-27 12:59

瀏覽

0收藏

上下文學習指的是模型在推斷時學習能力，而不需要調整其參數。模型（例如transformers）的輸入包括上下文（即實例-標簽對）和查詢實例（即提示）。然后，模型能夠根據上下文在推斷期間為查詢實例輸出一個標簽。上下文學習的一個可能解釋是，（線性）transformers的前向傳播在上下文中實現了對實例-標簽對的梯度下降迭代。在本文中，研究人員通過構造證明了transformers在前向傳播中也能實現時間差異（TD）學習，并將這一現象稱為上下文TD。在訓練transformers使用多任務TD算法后展示了上下文TD的出現，并進行了理論分析。此外，研究人員證明了transformers具有足夠的表達能力，可以在前向傳播中實現許多其他策略評估算法，包括殘差梯度、帶有資格跟蹤的TD和平均獎勵TD。

上下文學習已經成為大型語言模型最顯著的能力之一。在上下文學習中，模型的輸入（即提示）包括上下文（即實例-標簽對）和一個查詢實例。然后，模型在推斷期間（即前向傳播）為查詢實例輸出一個標簽。模型輸入和輸出的一個示例可以是：

Transformers學習上下文強化學習的時間差分方法 -AI.x社區

其中，“5 → number; a → letter”是包含兩個實例-標簽對的上下文，“6”是查詢實例。根據上下文，模型推斷查詢“6”的標簽為“number”。值得注意的是，整個過程在模型的推斷時間內完成，而不需要調整模型的參數。

在（1）中的示例說明了一個監督學習問題。在經典的機器學習框架中，這個監督學習問題通常通過首先基于上下文中的實例-標簽對訓練一個分類器來解決，使用諸如梯度下降之類的方法，然后要求分類器預測查詢實例的標簽。值得注意的是，研究表明，transformers能夠在前向傳播中實現這個梯度下降訓練過程，而不需要調整任何參數，為上下文學習提供了一個可能的解釋。

超越監督學習，智能涉及到順序決策，其中強化學習已經成為一個成功的范式。transformers在推斷期間能否執行上下文RL，以及如何執行？為了解決這些問題，研究人員從馬爾可夫獎勵過程MRP中的一個簡單評估問題開始。在MRP中，代理程序在每個時間步中從一個狀態轉換到另一個狀態。用（S0，S1，S2，...）表示代理訪問的狀態序列。在每個狀態下，代理程序會接收到一個獎勵。用（r(S0)，r(S1)，r(S2)，...）表示代理程序在路途中接收到的獎勵序列。評估問題是估計值函數v，該函數計算每個狀態未來代理程序將收到的期望總（折扣）獎勵。所需的輸入輸出的一個示例可以是：

Transformers學習上下文強化學習的時間差分方法 -AI.x社區

引人注目的是，上述任務與監督學習根本不同，因為目標是預測值v(s)，而不是即時獎勵r(s)。此外，查詢狀態s是任意的，不必是S3。時間差分學習TD是解決這類評估問題（2）的最常用的RL算法。而且眾所周知，TD不是梯度下降。

在這項工作中，研究人員做出了三個主要貢獻。首先，通過構造證明transformers具有足夠的表達能力來在前向傳播中實現TD，這一現象我們稱為上下文TD。換句話說，transformers能夠通過上下文TD在推斷時間內解決問題（2）。超越最直接的TD，transformers還可以實現許多其他策略評估算法，包括殘差梯度（Baird，1995）、帶有資格跟蹤的TD（Sutton，1988）和平均獎勵TD（Tsitsiklis和Roy，1999）。特別地，為了實現平均獎勵TD，transformers需要使用多頭注意力和過度參數化的提示，例如，

Transformers學習上下文強化學習的時間差分方法 -AI.x社區

這里，“□”充當一個虛擬占位符，在推斷期間transformers將使用它作為“記憶”。第二，通過在多個隨機生成的評估問題上訓練transformers與TD，實證地證明了在推斷中出現了上下文TD。換句話說，學習的transformer參數與我們在證明中的構造非常相符。將這種訓練方案稱為多任務TD。第三，通過展示對于單層transformer，證明了實現上下文TD所需的transformer參數在多任務TD訓練算法的不變集合的子集中，來彌合理論和實證結果之間的差距。

論文：https://arxiv.org/pdf/2405.13861

本文轉載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/voNZDTww7E5ec1hUwulztw??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

上下文學習

贊

收藏

回復

舉報

回復

相關推薦

擴散模型如何幫助創建更好的強化學習系統

51CTO內容精選 ? 2860瀏覽 ? 0回復
Nature：最大擴散強化學習

ceesoft ? 4042瀏覽 ? 0回復
機器學習有哪些類型？監督學習、無監督學習、強化學習、深度學習等等！

parson2000 ? 3967瀏覽 ? 0回復
ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制

輕薄滴假象 ? 2562瀏覽 ? 0回復
機器學習有哪些類型？監督學習、無監督學習、強化學習、深度學習等等

parson2000 ? 4652瀏覽 ? 0回復
提升5.69倍，高效RAG上下文壓縮方法COCOM

Aceryt ? 2508瀏覽 ? 0回復
從具身智能再談強化學習，為什么需要強化學習，以及強化學習的應用場景

AI探索時代 ? 3264瀏覽 ? 0回復
長上下文語言模型評估體系探析

Baihai_IDP ? 2874瀏覽 ? 0回復
Claude的MCP（模型上下文協議）簡介

Halo咯咯 ? 5272瀏覽 ? 0回復
為啥強化學習開始成為了大語言模型（LLM）的新寵？

智駐未來 ? 2896瀏覽 ? 0回復
基于多模態深度強化學習的投資組合優化

靈度智能 ? 3231瀏覽 ? 0回復
基于深度強化學習的投資組合配置動態優化

靈度智能 ? 3868瀏覽 ? 0回復
一文搞懂 DeepSeek - 強化學習和蒸餾

玄姐聊AGI ? 3252瀏覽 ? 0回復
強化學習與軟件工程：開源軟件獎勵演化的強化學習

AI研究前瞻 ? 2090瀏覽 ? 0回復
白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

后向傳播 ? 3785瀏覽 ? 0回復
微軟LongRoPE v2：幾乎無損的上下文擴展！

NLP前沿1 ? 1984瀏覽 ? 0回復
Logic-RL：基于規則強化學習的推理釋放

頓數AI ? 2233瀏覽 ? 0回復
強化學習強在哪里？基礎探索

柏企閱文 ? 1550瀏覽 ? 0回復
阿里開源QwenLong-L1：首個以強化學習訓練的長上下文推理大模型

PaperAgent ? 587瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-09 09:10:30發布
預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-03 15:46:55發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： ICML 2024：從視覺語言基礎模型反饋中進行強化學習

下一篇： STIC：自我訓練增強LVLM對圖像理解的能力

社區精華內容

目錄

主站蜘蛛池模板： 91久久国产 | 一级欧美一级日韩片免费观看 | 中文字幕一区二区在线观看 | 国产色| 蜜桃av鲁一鲁一鲁一鲁 | 久久久www| 无码一区二区三区视频 | 中国一级特黄真人毛片 | 欧美日韩一二三区 | 亚洲国产精品一区二区三区 | 亚洲视频一区 | 999国产视频| 久久久国产一区二区三区四区小说 | 欧美网址在线观看 | 亚洲三区在线 | 嫩草懂你的影院入口 | 中文字幕精品一区二区三区精品 | 成人超碰 | 91精品久久久久久久久 | 亚洲精品2 | 粉嫩一区二区三区国产精品 | 欧美一级在线观看 | 国产精品欧美一区二区 | 91免费视频观看 | 国产精品免费在线 | 久久免费精品 | 日韩一区中文字幕 | 中文在线a在线 | 国产在线观看av | 久久99精品久久久久久 | 黄视频免费在线 | 久久精品免费 | 久热伊人 | 91看片网 | 国产精品日日夜夜 | 91亚洲免费| 欧美精品一区在线 | 天天射天天干 | 成人欧美一区二区三区视频xxx | 久久精品一区二区视频 | 亚洲精品一区二区 |

<noscript id="sukou"><strong id="sukou"></strong></noscript>
<menu id="sukou"><th id="sukou"></th></menu>

<menu id="sukou"><th id="sukou"></th></menu>

<samp id="sukou"><acronym id="sukou"></acronym></samp>

<samp id="sukou"><tr id="sukou"></tr></samp>

<sup id="sukou"><pre id="sukou"></pre></sup>