成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RLHF與AlphaGo核心技術(shù)強強聯(lián)合,UW/Meta讓文本生成能力再上新臺階

人工智能 新聞
本文的作者提出采用一種蒙特卡洛樹搜索算法(MCTS)的變體從 PPO 模型中進行解碼,并將該方法命名為 PPO-MCTS。該方法依賴于一個價值模型(value model)來指導最優(yōu)序列的搜索。

在一項最新的研究中,來自 UW 和 Meta 的研究者提出了一種新的解碼算法,將 AlphaGo 采用的蒙特卡洛樹搜索算法(Monte-Carlo Tree Search, MCTS)應用到經(jīng)過近端策略優(yōu)化(Proximal Policy Optimization, PPO)訓練的 RLHF 語言模型上,大幅提高了模型生成文本的質(zhì)量。

圖片

PPO-MCTS 算法通過探索與評估若干條候選序列,搜索到更優(yōu)的解碼策略。通過 PPO-MCTS 生成的文本能更好滿足任務要求。

圖片

論文鏈接:https://arxiv.org/pdf/2309.15028.pdf

面向大眾用戶發(fā)布的 LLM,如 GPT-4/Claude/LLaMA-2-chat,通常使用 RLHF 以向用戶的偏好對齊。PPO 已經(jīng)成為上述模型進行 RLHF 的首選算法,然而在模型部署時,人們往往采用簡單的解碼算法(例如 top-p 采樣)從這些模型生成文本。

本文的作者提出采用一種蒙特卡洛樹搜索算法(MCTS)的變體從 PPO 模型中進行解碼,并將該方法命名為 PPO-MCTS。該方法依賴于一個價值模型(value model)來指導最優(yōu)序列的搜索。因為 PPO 本身即是一種演員 - 評論家算法(actor-critic),故而會在訓練中產(chǎn)生一個價值模型作為其副產(chǎn)品。

PPO-MCTS 提出利用這個價值模型指導 MCTS 搜索,并通過理論和實驗的角度驗證了其效用。作者呼吁使用 RLHF 訓練模型的研究者和工程人員保存并開源他們的價值模型。

PPO-MCTS 解碼算法

為生成一個 token,PPO-MCTS 會執(zhí)行若干回合的模擬,并逐步構(gòu)建一棵搜索樹。樹的節(jié)點代表已生成的文本前綴(包括原 prompt),樹的邊代表新生成的 token。PPO-MCTS 維護一系列樹上的統(tǒng)計值:對于每個節(jié)點 s,維護一個訪問量圖片和一個平均價值圖片;對于每條邊圖片,維護一個 Q 值圖片

五回合模擬結(jié)束時的搜索樹。邊上??的數(shù)量代表該邊的訪問量。

樹的構(gòu)建從一個代表當前 prompt 的根結(jié)點開始。每回合的模擬包含以下四步:

1. 選擇一個未探索的節(jié)點。從根結(jié)點出發(fā),根據(jù)以下 PUCT 公式選擇邊向下前進,直到到達一個未探索的節(jié)點:

圖片

該公式偏好擁有高 Q 值與低訪問量的子樹,因而能較好平衡 exploration 和 exploitation。

2. 展開上一步中選擇的節(jié)點,并通過 PPO 的策略模型(policy model)計算下一個 token 的先驗概率圖片

3. 評估該節(jié)點的價值。該步使用 PPO 的價值模型進行推斷。該節(jié)點及其子邊上的變量初始化為:

圖片

4. 回溯并更新樹上的統(tǒng)計值。從新探索的節(jié)點開始向上回溯直至根結(jié)點,并更新路徑上的以下變量:

圖片

圖片

每回合模擬的四個步驟:選擇、展開、評估、回溯。右下為第 1 回合模擬結(jié)束后的搜索樹。

若干回合的模擬結(jié)束后,使用根結(jié)點子邊的訪問量決定下一個 token,訪問量高的 token 被生成的概率更高(這里可以加入溫度參數(shù)來控制文本多樣性)。加入了新 token 的 prompt 作為下一階段搜索樹的根結(jié)點。重復這一過程直至生成結(jié)束。

圖片

第 2、3、4、5 回合模擬結(jié)束后的搜索樹。

相比于傳統(tǒng)的蒙特卡洛樹搜索,PPO-MCTS 的創(chuàng)新之處在于:

1. 在選擇步驟的 PUCT 中,使用 Q 值圖片替代了原版本中的平均價值圖片。這是因為 PPO 在每個 token 的獎勵圖片中含有一個 action-specific 的 KL 正則化項,使策略模型的參數(shù)保持在信任區(qū)間內(nèi)。使用 Q 值能夠在解碼時正確考慮這個正則化項:

圖片

2. 在評估步驟中,將新探索節(jié)點子邊的 Q 值初始化為該節(jié)點的評估價值(而非原版本 MCTS 中的零初始化)。該更改解決了 PPO-MCTS 退化成完全 exploitation 的問題。

3. 禁止探索 [EOS] token 子樹中的節(jié)點,以避免未定義的模型行為。

文本生成實驗

文章在四個文本生成任務上進行了實驗,分別為:控制文本情緒(sentiment steering)、降低文本毒性(toxicity reduction)、用于問答的知識自?。╧nowledge introspection)、以及通用的人類偏好對齊(helpful and harmless chatbots)。

文章主要將 PPO-MCTS 與以下基線方法進行比較:(1)從 PPO 策略模型采用 top-p 采樣生成文本(圖中的「PPO」);(2)在 1 的基礎上加入 best-of-n 采樣(圖中的「PPO + best-of-n」)。

文章評測了各方法在每個任務上的目標完成率(goal satisfaction rate)以及文本流暢度(fluency)。

圖片

左:控制文本情緒;右:降低文本毒性。

在控制文本情緒中,PPO-MCTS 在不損害文本流暢度的情況下,目標完成率比 PPO 基線高出 30 個百分點,在手動評測中的勝率也高出 20 個百分點。在降低文本毒性中,該方法的生成文本的平均毒性比 PPO 基線低 34%,在手動評測中的勝率也高出 30%。同時注意到,在兩個任務中,運用 best-of-n 采樣并不能有效提高文本質(zhì)量。

圖片

左:用于問答的知識自?。挥遥和ㄓ玫娜祟惼脤R。

在用于問答的知識自省中,PPO-MCTS 生成的知識之效用比 PPO 基線高出 12%。在通用的人類偏好對齊中,文章使用 HH-RLHF 數(shù)據(jù)集構(gòu)建有用且無害的對話模型,在手動評測中勝率高出 PPO 基線 5 個百分點。

最后,文章通過對 PPO-MCTS 算法的分析和消融實驗,得出以下結(jié)論支持該算法的優(yōu)勢:

  1. PPO 的價值模型比用于 PPO 訓練的獎勵模型(reward model)在指導搜索方面更加有效。
  2. 對于 PPO 訓練出的策略和價值模型,MCTS 是一個有效的啟發(fā)式搜索方法,其效果優(yōu)于一些其它搜索算法(如 stepwise-value decoding)。
  3. PPO-MCTS 比其它提高獎勵的方法(如使用 PPO 進行更多次迭代)具有更好的 reward-fluency tradeoff。

總結(jié)來說,本文通過將 PPO 與蒙特卡洛樹搜索(MCTS)進行結(jié)合,展示了價值模型在指導搜索方面的有效性,并且說明了在模型部署階段用更多步的啟發(fā)式搜索換取更高質(zhì)量生成文本是一條可行之路。

更多方法和實驗細節(jié)請參閱原論文。封面圖片由 DALLE-3 生成。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-01-25 10:18:32

5G運營商電信

2018-05-02 11:25:59

智能交通

2016-11-16 10:44:39

政務云云數(shù)據(jù)中心華為

2014-08-15 10:02:16

聯(lián)想存儲EMC

2023-11-16 09:59:58

智能駕駛算力

2009-09-08 11:05:00

JRuby入門Ruby

2009-04-08 10:03:01

2022-12-19 11:15:11

2024-03-08 10:50:44

Spring技術(shù)應用程序

2010-08-12 09:49:26

FlexBuilderEclipse3.4

2022-05-07 14:31:46

物聯(lián)網(wǎng)

2023-06-19 07:08:22

結(jié)構(gòu)化數(shù)據(jù)ChatGPT

2022-08-12 12:24:31

亞馬遜云科技訓練營開發(fā)者

2025-06-10 01:22:00

2025-04-25 08:05:00

IP地址CIDRVLSM

2010-01-12 11:31:46

博科資訊物流振興

2025-04-03 07:00:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一级黄色片在线免费观看 | 亚洲黄色网址视频 | 欧美一级做a爰片免费视频 国产美女特级嫩嫩嫩bbb片 | 亚洲综合国产精品 | 亚洲在线一区二区三区 | 精品国产精品 | 亚洲国产成人在线视频 | 中文字幕二区 | 久久新视频 | 九九九视频 | cao视频| 91精品国产综合久久久久久漫画 | 日本在线一二 | 欧美日韩精选 | 成人毛片网站 | 午夜视频在线观看网站 | 美女视频一区二区三区 | 亚洲一区二区三区在线 | 国产成人av一区二区三区 | 欧美日韩综合 | 中文字幕日韩在线观看 | 亚洲成人精品在线 | 国产精品1 | 日韩视频 中文字幕 | 龙珠z国语版在线观看 | 成人午夜免费福利视频 | 亚洲精品乱码久久久久久按摩观 | av高清毛片 | 一区二区免费在线观看 | 午夜成人在线视频 | 亚洲一区二区免费视频 | 日韩视频在线免费观看 | 狠狠干美女 | 精品久久久久久久久久久 | 日本在线中文 | 成人午夜在线 | 91亚洲国产成人久久精品网站 | 日韩av一区二区在线观看 | 亚洲人在线| 久久国内精品 | 综合久久亚洲 |