DeepMind新研究：ReST讓大模型與人類偏好對(duì)齊，比在線RLHF更有效

作者：機(jī)器之心 2023-08-22 13:21:07

本文提出了一種新的RLHF算法ReST，極大地提高了翻譯質(zhì)量。不同于 RLHF 使用人類反饋改進(jìn)語言模型，ReST 通過生成和使用離線數(shù)據(jù)進(jìn)行訓(xùn)練，從而使得 LLM 與人類偏好保持一致。

這幾個(gè)月以來，我們已經(jīng)見證了大型語言模型（LLM）在生成高質(zhì)量文本和解決眾多語言任務(wù)方面出色的能力。然而，LLM 又面臨這樣一個(gè)困境，即產(chǎn)生的輸出很大程度上與人類偏好并不一致。如果沒有適當(dāng)?shù)膶?duì)齊，語言模型可能輸出不安全的內(nèi)容。此外，對(duì)齊 LLM 還有助于改善下游任務(wù)。

有研究者提出基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF)，通過使用人類偏好來解決對(duì)齊問題。

一般來講，RLHF 依賴于 PPO、A2C 等在線 RL 方法，但這些方法計(jì)算成本高昂且容易遭受打擊；雖然離線 RL 可以避免在線 RL 的缺陷，然而，離線學(xué)習(xí)的質(zhì)量過分依賴離線數(shù)據(jù)集的屬性。因此，精心策劃的數(shù)據(jù)集對(duì)離線強(qiáng)化學(xué)習(xí)來說非常重要。

本文，來自 Google DeepMind 的研究者提出了一種簡(jiǎn)單的算法使 LLM 與人類偏好對(duì)齊，他們將該方法命名為 ReST（Reinforced Self-Training）。不同于 RLHF 使用人類反饋改進(jìn)語言模型，ReST 通過生成和使用離線數(shù)據(jù)進(jìn)行訓(xùn)練，從而使得 LLM 與人類偏好保持一致。

給定一個(gè)初始 LLM 策略，ReST 能夠根據(jù)該策略生成數(shù)據(jù)集，然后該數(shù)據(jù)集基于離線 RL 算法被反過來提高 LLM 策略。ReST 比典型的在線 RLHF 方法更有效，因?yàn)橛?xùn)練數(shù)據(jù)集是離線生成的，這允許數(shù)據(jù)重用。

研究團(tuán)隊(duì)表示，雖然 ReST 可用于所有生成任務(wù)，但本文的重點(diǎn)是機(jī)器翻譯。結(jié)果表明，ReST 可以極大地提高翻譯質(zhì)量。

論文地址：https://arxiv.org/pdf/2308.08998.pdf

有研究者評(píng)論道：「DeepMind 展示了自然語言生成的迭代自我改進(jìn)。他們將『人』從人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 循環(huán)中剔除，提出 ReST。」

下面那我們看具體實(shí)現(xiàn)方法。

方法介紹

該研究提出了一種稱為強(qiáng)化自訓(xùn)練（Reinforced Self-Training，ReST）的 RLHF 算法，ReST 可將語言模型的輸出與人類偏好保持一致。人類對(duì)序列的偏好是使用學(xué)得的獎(jiǎng)勵(lì)函數(shù)來建模的。ReST 算法將典型 RL pipeline 的數(shù)據(jù)集增長（Grow）和策略改進(jìn)（Improve）解耦成兩個(gè)單獨(dú)的離線階段。

如下圖 1 所示，ReST 方法包括兩個(gè)循環(huán)：內(nèi)循環(huán)（Improve step）和外循環(huán)（Grow step）。并且與在線或離線 RL 的典型 RLHF 方法相比，ReST 具有以下優(yōu)勢(shì)：

與在線 RL 相比，ReST 由于在 Improve step 中利用了 Grow step 的輸出，因此計(jì)算負(fù)擔(dān)大大減少；
策略的質(zhì)量不在受原始數(shù)據(jù)集質(zhì)量的限制（如離線 RL），因?yàn)樾碌挠?xùn)練數(shù)據(jù)是從 Grow step 中經(jīng)過采樣得到的；
檢查數(shù)據(jù)質(zhì)量并判斷對(duì)齊變得更加容易，因?yàn)?Improve step 和 Grow step 這兩個(gè)過程是解耦的；
ReST 簡(jiǎn)單、穩(wěn)定，并且只有少量的超參數(shù)需要調(diào)優(yōu)。

該研究首先訓(xùn)練一個(gè)初始模型，在給定序列對(duì)數(shù)據(jù)集 D 的情況下，使用如下等式 (1) 中的 NLL 損失將輸入序列??映射到輸出序列??。

接下來，Grow 步驟會(huì)創(chuàng)建一個(gè)新的數(shù)據(jù)集 D_??，使用模型中的樣本來擴(kuò)充初始訓(xùn)練數(shù)據(jù)集：

其中，條件輸入是從原始數(shù)據(jù)集中重新采樣的，就像自訓(xùn)練一樣；但在可以訪問 ??(??) 的情況下也可以直接從中采樣，即。例如，在文生圖模型中，文本輸入的分布可以從語言模型 ??(??) 中采樣。

然后，Improve 步驟使用 D_?? 來微調(diào)策略??_??。值得注意的是，該研究將原始數(shù)據(jù)集保留在訓(xùn)練中，以確保策略不會(huì)發(fā)散。

整個(gè) ReST 算法如下圖算法 1 所示，其中包含多個(gè)數(shù)據(jù)集增長和策略改進(jìn)步驟：

實(shí)驗(yàn)

研究者在機(jī)器翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn)，測(cè)試基準(zhǔn)包括 IWSLT 2014 、 WMT 2020 、 Web Domain 。

圖 3 繪制了帶有多個(gè) Improve steps 的平均獎(jiǎng)勵(lì)：可以看到，隨著 Improve steps 增加，翻譯模型在所有三個(gè)數(shù)據(jù)集上的性能都得到了提高。

增加 Grow step（G）能否提高獎(jiǎng)勵(lì)模型的得分？帶著這一問題，研究者進(jìn)行了另一項(xiàng)實(shí)驗(yàn)。結(jié)果如圖 4 所示，帶有一個(gè) Grow step 的方法在 IWSLT 2014 和 Web Domain 數(shù)據(jù)集上有所提高，當(dāng) Grow step 為 2 時(shí)，模型將得分從 77.8 提高到 80.5，提高了 5.3。

ReST 是否優(yōu)于監(jiān)督訓(xùn)練？結(jié)果如圖 5 所示，即使在第一個(gè) grow step 之后，ReST 的不同變體（紫色）也顯著優(yōu)于監(jiān)督學(xué)習(xí)（灰色）。

ReST 可以在推理時(shí)使用 Best-of-N 采樣進(jìn)一步改進(jìn)嗎？圖 6 展示了 BC（ behavioral cloning ）和 ReST 變體之間的 Best-of-N 抽樣結(jié)果。ReST 的性能隨著 ?? 和 Improve step 數(shù)量的增加而提高。得出 ReST 仍然可以從 Best-of-N 采樣中受益。

ReST 與在線 RL 相比如何？該研究將 ReST 與 PPO 進(jìn)行了比較，PPO 是一種廣泛用于 RLHF 的在線 RL 算法。結(jié)果總結(jié)在表 1 中。

下圖表明，所有 ReST 變體在人類評(píng)分方面優(yōu)于 BC 方法：

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 算法

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepMind新研究：ReST讓大模型與人類偏好對(duì)齊，比在線RLHF更有效

方法介紹

實(shí)驗(yàn)