成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<ol id="11166"><dl id="11166"><sup id="11166"></sup></dl></ol>

<cite id="11166"><dl id="11166"></dl></cite>

<cite id="11166"></cite>

<mark id="11166"><form id="11166"></form></mark>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

LLM超越人類(lèi)時(shí)該如何對(duì)齊？谷歌用新RLHF框架解決了這個(gè)問(wèn)題

作者：機(jī)器之心 2024-11-05 13:30:00

人工智能新聞

對(duì)基于 LLM 的 AI 來(lái)說(shuō)，高質(zhì)量的人類(lèi)數(shù)據(jù)非常關(guān)鍵，但已有研究預(yù)計(jì)這些高質(zhì)量數(shù)據(jù)將在未來(lái)幾年耗盡。

我們這個(gè)世界是不斷變化的開(kāi)放世界。人工智能要在這個(gè)世界長(zhǎng)久立足，就需要突破許多限制，包括可用數(shù)據(jù)和規(guī)模和質(zhì)量以及有用新信息的增長(zhǎng)率。

對(duì)基于 LLM 的 AI 來(lái)說(shuō)，高質(zhì)量的人類(lèi)數(shù)據(jù)非常關(guān)鍵，但已有研究預(yù)計(jì)這些高質(zhì)量數(shù)據(jù)將在未來(lái)幾年耗盡。

如果 LLM 保持現(xiàn)在的發(fā)展勢(shì)頭，預(yù)計(jì)在 2028 年（中位數(shù)）左右，已有的數(shù)據(jù)儲(chǔ)量將被全部利用完，來(lái)自論文《Will we run out of data? Limits of LLM scaling based on human-generated data》

此后，這類(lèi)數(shù)據(jù)的質(zhì)量也將停滯不前：隨著 LLM 能力越來(lái)越強(qiáng)，它們將能解決越來(lái)越復(fù)雜和越來(lái)越多的難題，而這些難題所需的訓(xùn)練數(shù)據(jù)已經(jīng)超出了人類(lèi)的能力。

因此，我們就需要為 LLM 構(gòu)建一種能使其實(shí)現(xiàn)自我提升的基本機(jī)制，讓模型可以持續(xù)地自我生成和自我求解更困難的問(wèn)題。

于是，問(wèn)題就來(lái)了：語(yǔ)言模型能否自我創(chuàng)建可學(xué)習(xí)的新任務(wù)，從而實(shí)現(xiàn)自我改進(jìn)以更好地泛化用于人類(lèi)偏好對(duì)齊？

為了提升語(yǔ)言模型的對(duì)齊能力，人們已經(jīng)提出了許多偏好優(yōu)化算法，但它們都默認(rèn)使用固定的提示詞訓(xùn)練分布。這種固定的訓(xùn)練范式缺乏可擴(kuò)展性，并不可避免地導(dǎo)致泛化問(wèn)題和效率問(wèn)題。

基于這些考慮，谷歌 DeepMind 和芝加哥大學(xué)一個(gè)研究團(tuán)隊(duì)開(kāi)發(fā)了一種可擴(kuò)展的開(kāi)放式 RLHF 框架 eva，即 Evolving Alignment via Asymmetric Self-Play，也就是「通過(guò)非對(duì)稱(chēng)自博弈實(shí)現(xiàn)的演進(jìn)式對(duì)齊」。

論文標(biāo)題：Evolving Alignment via Asymmetric Self-Play
論文地址：https://arxiv.org/pdf/2411.00062

eva 能讓自我提升式語(yǔ)言模型的訓(xùn)練分布自動(dòng)演進(jìn)，如圖 1 所示。

eva 的核心方法

在介紹 eva 的核心方法之前，我們需要先了解一些前提設(shè)置，這里截圖如下：

概述地講，eva 可通過(guò)一個(gè)創(chuàng)建器（creator）將經(jīng)典 RLHF 擴(kuò)展成開(kāi)放式 RLHF，該創(chuàng)建器使用易于實(shí)現(xiàn)的估計(jì)、采樣、進(jìn)化程序來(lái)調(diào)整提示詞的分布，模仿不對(duì)稱(chēng)自博弈的最小最大遺憾（minimax-regret）策略。

原理：用于聯(lián)合自我提升的開(kāi)放式 RLHF

直觀說(shuō)明

經(jīng)典 RLHF 是在一個(gè)靜態(tài)提示詞分布上執(zhí)行優(yōu)化，這意味著智能體僅與固定的參考點(diǎn)對(duì)齊，這使得它難以對(duì)應(yīng)不斷變化的現(xiàn)實(shí)世界中的新問(wèn)題。

新提出的開(kāi)放式 RLHF 框架 eva 則打破了這個(gè)靜態(tài)設(shè)置，其目標(biāo)是開(kāi)發(fā)出一種能很好地泛化到未曾見(jiàn)過(guò)的新環(huán)境的智能體。為此，該團(tuán)隊(duì)必須設(shè)計(jì)一個(gè)新的目標(biāo)，而不僅僅是在一個(gè)固定數(shù)據(jù)集上執(zhí)行優(yōu)化。

形式化描述

π_φ (x) 是可優(yōu)化的提示詞生成策略，其會(huì)與響應(yīng)策略 π_θ (y | x) 一起被聯(lián)合優(yōu)化，如下所示：

其中，p_ref (x) 表示所有可能任務(wù)（通過(guò)提示詞實(shí)例化）的理想化的可能很難處理的概率，其可作為智能體可能遇到的任務(wù)的全部多樣性和復(fù)雜性的概念參考，同時(shí)用作對(duì)齊的指導(dǎo)目標(biāo)。此外，聯(lián)合優(yōu)化可確保任務(wù)分配和智能體的響應(yīng)策略同步更新，從而適應(yīng)日益復(fù)雜的任務(wù)，進(jìn)而促進(jìn)泛化。

機(jī)制：通過(guò)創(chuàng)建器和求解器博弈實(shí)現(xiàn)非對(duì)稱(chēng)自博弈

直觀說(shuō)明

由于未指定的參考很難處理以及聯(lián)合微分存在不穩(wěn)定問(wèn)題，因此 (7) 式很難直接優(yōu)化。為此，該團(tuán)隊(duì)提出了一種交替式的優(yōu)化方案，其做法是將該問(wèn)題表述成一個(gè)非對(duì)稱(chēng)的創(chuàng)建器 - 求解器博弈。

直觀地講，創(chuàng)建器可以通過(guò)復(fù)雜度不斷增加的提示詞例程來(lái)指導(dǎo)求解器，從而實(shí)現(xiàn)高效和一般性的學(xué)習(xí)，以處理現(xiàn)實(shí)任務(wù)的多樣性。
從數(shù)學(xué)上看，這類(lèi)似于通過(guò)期望最大化進(jìn)行的 RL 優(yōu)化，其中提示詞分布的 φ 在每個(gè)步驟中都是固定的。

形式化描述

該團(tuán)隊(duì)將這種交替優(yōu)化表述成了一種非對(duì)稱(chēng)博弈，如下所示：

創(chuàng)建器（Creator：提示詞博弈者 π_X，其作用是策略性地為求解器生成提示詞。
求解器（Solver：響應(yīng)博弈者 π_{Y|X}（或 π），其作用是學(xué)習(xí)生成更符合偏好的響應(yīng)。

該團(tuán)隊(duì)采用了 minimax regret 策略，其中求解器的目標(biāo)是最小化后悔值，而創(chuàng)建器則是為了最大化這個(gè)值，即當(dāng)前策略和最優(yōu)策略之間的獎(jiǎng)勵(lì)之差為：

在納什均衡下，之前已有研究表明：

然而，如果無(wú)法獲得真正的最優(yōu)策略，就必須近似后悔值。利用隨機(jī)策略和獎(jiǎng)勵(lì)信號(hào)，該團(tuán)隊(duì)設(shè)計(jì)了基于優(yōu)勢(shì)的代理函數(shù)：

總之，eva 允許創(chuàng)建一個(gè)不斷演進(jìn)的提示詞分布，其難度會(huì)隨智能體的演進(jìn)而逐步提升。新引入的 minimax regret 可進(jìn)一步增加這種不斷發(fā)展的例程的穩(wěn)健性，其做法是激勵(lì)智能體在所有情況下都表現(xiàn)良好。他們使用了信息量代理來(lái)指導(dǎo)學(xué)習(xí)。

總之，eva 是將對(duì)齊視為一種非對(duì)稱(chēng)博弈，其機(jī)制是創(chuàng)建器不斷挑戰(zhàn)求解器，而求解器則不斷學(xué)習(xí)提升。

實(shí)際的算法

下面說(shuō)明如何實(shí)際實(shí)現(xiàn)算法 1 中的 eva。

1. 創(chuàng)建器步驟：估計(jì)，采樣，然后演進(jìn)

顯然，創(chuàng)建器會(huì)找到最有用的提示詞并生成它們的變體，并將這些變體用于偏好優(yōu)化。創(chuàng)建器的實(shí)現(xiàn)分為 3 步。

第 1 步：info (?)—— 估計(jì)信息量。對(duì)于提示集 X) t 中的每個(gè) x，生成響應(yīng)、注釋獎(jiǎng)勵(lì)并通過(guò) (10) 式估計(jì) x 的信息量指標(biāo)。
第 2 步：sample (?)—— 對(duì)富含信息的子集進(jìn)行加權(quán)采樣。使用信息量指標(biāo)作為權(quán)重，對(duì)富含信息的提示詞子集 X^info_t 進(jìn)行采樣，以便稍后執(zhí)行演進(jìn)。
第 3 步：evolve (?)—— 為高優(yōu)勢(shì)提示詞執(zhí)行近端區(qū)域演進(jìn)。具體來(lái)說(shuō)，迭代 X^info_t 中的每個(gè)提示詞，讓它們各自都演化為多個(gè)變體，然后（可選）將新生成的提示詞與對(duì) X_t 的均勻采樣的緩存混合以創(chuàng)建 X′_t。

2. 求解器步驟：求解然后優(yōu)化

此步驟是經(jīng)典的偏好優(yōu)化，其中生成響應(yīng)并執(zhí)行梯度下降。以逐點(diǎn)獎(jiǎng)勵(lì)模型設(shè)置為例，對(duì)于每個(gè)提示，采樣 n 個(gè)響應(yīng)，每個(gè)響應(yīng)都帶有獎(jiǎng)勵(lì)注釋?zhuān)贿@里采用最大和最小獎(jiǎng)勵(lì)的響應(yīng)來(lái)構(gòu)建偏好對(duì)，然后進(jìn)行優(yōu)化。

總之，eva 可以使用新的創(chuàng)建器模塊統(tǒng)一現(xiàn)有的迭代優(yōu)化工作流程，該模塊可以與求解器策略共享相同的網(wǎng)絡(luò)，也可獨(dú)立運(yùn)行。

實(shí)驗(yàn)結(jié)果

這里我們僅關(guān)注實(shí)驗(yàn)的主要結(jié)果，實(shí)驗(yàn)設(shè)置請(qǐng)參看原論文。

總體而言，eva 在對(duì)齊方面取得了顯著的進(jìn)步，同時(shí)無(wú)需依賴(lài)任何人工數(shù)據(jù)，因此更具效率。是基礎(chǔ)設(shè)置，即一次迭代微調(diào)后的模型，eva 則會(huì)在此基礎(chǔ)上添加一個(gè)創(chuàng)建器，以實(shí)現(xiàn)初始迭代的提示詞集的自我演進(jìn)，并使用一個(gè)偏好優(yōu)化算法進(jìn)行額外的開(kāi)放式 RLHF 迭代，這會(huì)得到。

eva 能實(shí)現(xiàn)自我提升

如表 1 紅色標(biāo)記所示，eva 在不同優(yōu)化算法中的表現(xiàn)顯著優(yōu)于基礎(chǔ)設(shè)置，尤其是在更難的 Arena-Hard 基準(zhǔn)上，該基準(zhǔn)由于其提示詞的復(fù)雜性和更公平的評(píng)分系統(tǒng)而被認(rèn)為更具挑戰(zhàn)性。

具體來(lái)說(shuō)，eva 使用 SimPO 作為求解器時(shí)增益為 8.4%，使用 DPO 作為求解器時(shí)增益為 8.5%，超越了其 27B 版本并與 Arena-Hard 排行榜上報(bào)告的 claude-3-opus-240229 相當(dāng)，同時(shí)還使用了全自動(dòng)的提示詞生成進(jìn)行對(duì)齊。

eva 可以超越人工編寫(xiě)的提示詞

實(shí)驗(yàn)進(jìn)一步表明，使用 eva 提示詞訓(xùn)練的模型的表現(xiàn)能夠比肩甚至超越那些使用了來(lái)自 UltraFeedback 的額外新提示詞訓(xùn)練的模型，這可被視為是人類(lèi)提示詞。同時(shí)，前者還能做到成本更低，速度更快。

此外，在 MT-Bench 上，使用新的人類(lèi)提示詞進(jìn)行訓(xùn)練通常會(huì)在第一輪中表現(xiàn)出性能下降，在第二輪中也只會(huì)有適度的提升。相比之下，eva 能顯著提高第二輪的表現(xiàn)。

針對(duì)此現(xiàn)象，該團(tuán)隊(duì)給出了自己的假設(shè)：eva 可演化出全新的可學(xué)習(xí)的提示詞，并且其中包含第二輪問(wèn)題的特征，這表明 eva 涌現(xiàn)出了處理后續(xù)互動(dòng)等新技能。

消融研究

為了驗(yàn)證 eva 各組件的有效性，該團(tuán)隊(duì)也執(zhí)行了消融研究，下面我們簡(jiǎn)單給出其發(fā)現(xiàn)，詳細(xì)實(shí)驗(yàn)過(guò)程請(qǐng)?jiān)L問(wèn)原論文：

信息量指標(biāo)：新提出的基于后悔值的指標(biāo)優(yōu)于其它替代指標(biāo)；
采樣之后執(zhí)行演化的流程：新方法優(yōu)于貪婪選擇方法；
使用獎(jiǎng)勵(lì)模型進(jìn)行擴(kuò)展：eva 的對(duì)齊增益會(huì)隨獎(jiǎng)勵(lì)模型而擴(kuò)展；
持續(xù)訓(xùn)練：新提出的方法可通過(guò)增量訓(xùn)練獲得單調(diào)增益；eva 演化得到的數(shù)據(jù)和調(diào)度可用作隱式正則化器，從而實(shí)現(xiàn)更好的局部最小值。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板： 91久久精品国产91久久 | 成人精品福利 | 欧美激情一区二区 | 欧美一区二区三区 | 一区二区三区在线免费观看 | 国产精品高潮呻吟 | 久久高清精品 | 婷婷综合色 | 日韩中文字幕网 | 日韩一区二区福利视频 | 激情欧美一区二区三区中文字幕 | 国产精品视频一区二区三区四区国 | 日韩精品一区二区三区中文在线 | 国产一区二区三区色淫影院 | 超黄毛片 | 日韩成人av在线 | 一区二区国产精品 | 国产免费一区二区 | 激情欧美一区二区三区中文字幕 | 久久久夜夜夜 | 五月免费视频 | av黄色在线 | 亚洲人va欧美va人人爽 | 国产综合久久 | 欧美精品第一区 | 欧美一区二区三区一在线观看 | 2018国产大陆天天弄 | 99精品久久久 | 亚洲精品免费视频 | 国产精品久久久久久久久免费樱桃 | 日韩视频三区 | 成人国产精品久久久 | 国产一级在线 | 亚洲乱码一区二区三区在线观看 | 欧美男人天堂 | 日韩中文一区 | 拍真实国产伦偷精品 | 91精品国产91久久综合桃花 | 久久一| 亚洲一av| 免费色网址 |

<cite id="16666"></cite>

<label id="16666"></label>

<ol id="16666"><dl id="16666"><sup id="16666"></sup></dl></ol>