成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepMind新研究:ReST讓大模型與人類偏好對(duì)齊,比在線RLHF更有效

人工智能 新聞
本文提出了一種新的RLHF算法ReST,極大地提高了翻譯質(zhì)量。不同于 RLHF 使用人類反饋改進(jìn)語言模型,ReST 通過生成和使用離線數(shù)據(jù)進(jìn)行訓(xùn)練,從而使得 LLM 與人類偏好保持一致。

這幾個(gè)月以來,我們已經(jīng)見證了大型語言模型(LLM)在生成高質(zhì)量文本和解決眾多語言任務(wù)方面出色的能力。然而,LLM 又面臨這樣一個(gè)困境,即產(chǎn)生的輸出很大程度上與人類偏好并不一致。如果沒有適當(dāng)?shù)膶?duì)齊,語言模型可能輸出不安全的內(nèi)容。此外,對(duì)齊 LLM 還有助于改善下游任務(wù)。

有研究者提出基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF),通過使用人類偏好來解決對(duì)齊問題。

一般來講,RLHF 依賴于 PPO、A2C 等在線 RL 方法,但這些方法計(jì)算成本高昂且容易遭受打擊;雖然離線 RL 可以避免在線 RL 的缺陷,然而,離線學(xué)習(xí)的質(zhì)量過分依賴離線數(shù)據(jù)集的屬性。因此,精心策劃的數(shù)據(jù)集對(duì)離線強(qiáng)化學(xué)習(xí)來說非常重要。

本文,來自 Google DeepMind 的研究者提出了一種簡(jiǎn)單的算法使 LLM 與人類偏好對(duì)齊,他們將該方法命名為 ReST(Reinforced Self-Training)。不同于 RLHF 使用人類反饋改進(jìn)語言模型,ReST 通過生成和使用離線數(shù)據(jù)進(jìn)行訓(xùn)練,從而使得 LLM 與人類偏好保持一致。

給定一個(gè)初始 LLM 策略,ReST 能夠根據(jù)該策略生成數(shù)據(jù)集,然后該數(shù)據(jù)集基于離線 RL 算法被反過來提高 LLM 策略。ReST 比典型的在線 RLHF 方法更有效,因?yàn)橛?xùn)練數(shù)據(jù)集是離線生成的,這允許數(shù)據(jù)重用。

研究團(tuán)隊(duì)表示,雖然 ReST 可用于所有生成任務(wù),但本文的重點(diǎn)是機(jī)器翻譯。結(jié)果表明,ReST 可以極大地提高翻譯質(zhì)量。

論文地址:https://arxiv.org/pdf/2308.08998.pdf

有研究者評(píng)論道:「DeepMind 展示了自然語言生成的迭代自我改進(jìn)。他們將『人』從人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 循環(huán)中剔除,提出 ReST。」

下面那我們看具體實(shí)現(xiàn)方法。

方法介紹

該研究提出了一種稱為強(qiáng)化自訓(xùn)練(Reinforced Self-Training,ReST)的 RLHF 算法,ReST 可將語言模型的輸出與人類偏好保持一致。人類對(duì)序列的偏好是使用學(xué)得的獎(jiǎng)勵(lì)函數(shù)來建模的。ReST 算法將典型 RL pipeline 的數(shù)據(jù)集增長(Grow)和策略改進(jìn)(Improve)解耦成兩個(gè)單獨(dú)的離線階段。

如下圖 1 所示,ReST 方法包括兩個(gè)循環(huán):內(nèi)循環(huán)(Improve step)和外循環(huán)(Grow step)。并且與在線或離線 RL 的典型 RLHF 方法相比,ReST 具有以下優(yōu)勢(shì):

  • 與在線 RL 相比,ReST 由于在 Improve step 中利用了 Grow step 的輸出,因此計(jì)算負(fù)擔(dān)大大減少;
  • 策略的質(zhì)量不在受原始數(shù)據(jù)集質(zhì)量的限制(如離線 RL),因?yàn)樾碌挠?xùn)練數(shù)據(jù)是從 Grow step 中經(jīng)過采樣得到的;
  • 檢查數(shù)據(jù)質(zhì)量并判斷對(duì)齊變得更加容易,因?yàn)?Improve step 和 Grow step 這兩個(gè)過程是解耦的;
  • ReST 簡(jiǎn)單、穩(wěn)定,并且只有少量的超參數(shù)需要調(diào)優(yōu)。


該研究首先訓(xùn)練一個(gè)初始模型圖片,在給定序列對(duì)數(shù)據(jù)集 D 的情況下,使用如下等式 (1) 中的 NLL 損失將輸入序列??映射到輸出序列??。

接下來,Grow 步驟會(huì)創(chuàng)建一個(gè)新的數(shù)據(jù)集 D_??,使用模型中的樣本來擴(kuò)充初始訓(xùn)練數(shù)據(jù)集:

其中,條件輸入是從原始數(shù)據(jù)集圖片中重新采樣的,就像自訓(xùn)練一樣;但在可以訪問 ??(??) 的情況下也可以直接從中采樣,即圖片。例如,在文生圖模型中,文本輸入的分布可以從語言模型 ??(??) 中采樣。

然后,Improve 步驟使用 D_?? 來微調(diào)策略??_??。值得注意的是,該研究將原始數(shù)據(jù)集保留在訓(xùn)練中,以確保策略不會(huì)發(fā)散。

整個(gè) ReST 算法如下圖算法 1 所示,其中包含多個(gè)數(shù)據(jù)集增長和策略改進(jìn)步驟:

實(shí)驗(yàn)

研究者在機(jī)器翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn),測(cè)試基準(zhǔn)包括 IWSLT 2014 、 WMT 2020 、 Web Domain 。

圖 3 繪制了帶有多個(gè) Improve steps 的平均獎(jiǎng)勵(lì):可以看到,隨著 Improve steps 增加,翻譯模型在所有三個(gè)數(shù)據(jù)集上的性能都得到了提高。

增加 Grow step(G)能否提高獎(jiǎng)勵(lì)模型的得分?帶著這一問題,研究者進(jìn)行了另一項(xiàng)實(shí)驗(yàn)。結(jié)果如圖 4 所示,帶有一個(gè) Grow step 的方法在 IWSLT 2014 和 Web Domain 數(shù)據(jù)集上有所提高,當(dāng) Grow step 為 2 時(shí),模型將得分從 77.8 提高到 80.5,提高了 5.3。

圖片

ReST 是否優(yōu)于監(jiān)督訓(xùn)練?結(jié)果如圖 5 所示,即使在第一個(gè) grow step 之后,ReST 的不同變體(紫色)也顯著優(yōu)于監(jiān)督學(xué)習(xí)(灰色)。

ReST 可以在推理時(shí)使用 Best-of-N 采樣進(jìn)一步改進(jìn)嗎?圖 6 展示了 BC( behavioral cloning )和 ReST 變體之間的 Best-of-N 抽樣結(jié)果。ReST 的性能隨著 ?? 和 Improve step 數(shù)量的增加而提高。得出 ReST 仍然可以從 Best-of-N 采樣中受益。

ReST 與在線 RL 相比如何?該研究將 ReST 與 PPO 進(jìn)行了比較,PPO 是一種廣泛用于 RLHF 的在線 RL 算法。結(jié)果總結(jié)在表 1 中。

圖片

下圖表明,所有 ReST 變體在人類評(píng)分方面優(yōu)于 BC 方法:

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-10-23 09:00:00

2024-01-24 13:37:36

大型語言模型人工智能

2023-07-20 13:11:54

語言模型助手

2024-01-15 16:41:00

模型數(shù)據(jù)

2024-09-23 14:46:27

2024-04-16 14:01:40

大型語言模型ORPO

2023-07-11 15:38:51

模型方案

2022-08-22 15:47:48

谷歌模型

2024-11-05 13:30:00

2013-04-01 00:43:50

華為金華威

2013-04-01 00:59:33

金華威華為

2024-12-27 11:52:25

GRAPEVLA 模型人工智能

2024-01-07 22:58:56

2023-04-28 15:24:06

模型研究

2024-03-04 00:20:00

語言模型人工智能

2023-12-06 13:20:00

AI模型

2023-11-13 07:56:16

AI模型

2024-04-25 07:00:00

2023-09-05 12:59:33

模型數(shù)據(jù)

2023-09-06 13:17:00

AI數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美日韩国产精品一区 | 亚洲成人久久久 | 欧洲妇女成人淫片aaa视频 | 国产成人小视频 | 日本电影韩国电影免费观看 | 色综合天天天天做夜夜夜夜做 | 成年人在线视频 | 久久精品国产一区 | 精品人伦一区二区三区蜜桃网站 | 男人天堂色 | 午夜一区二区三区在线观看 | 欧洲色| 天天操天天干天天透 | 在线观看亚洲专区 | 就操在线| 欧美日韩国产一区二区三区 | 美女视频一区 | 国产精品成人在线播放 | 午夜激情视频 | 国产专区免费 | 日本免费小视频 | 亚洲欧美激情国产综合久久久 | 一区二区三区四区国产 | 久久91| 热久久久 | 久久精品国产99国产 | 国产真实精品久久二三区 | 亚洲精品粉嫩美女一区 | 欧美精品综合 | 欧美乱大交xxxxx另类电影 | 久久91 | 成人在线免费 | 超碰超碰 | 国产欧美视频一区 | 欧美成人猛片aaaaaaa | 福利二区 | 午夜免费| www.xxxx欧美| 亚洲国产精品一区二区第一页 | 国产精品久久久久久久久久久久久久 | 日韩毛片中文字幕 |