OpenAI超級對齊團隊再發(fā)「絕唱」！首提「證明者-驗證者」博弈，訓練GPT說人話

作者：新智元 2024-07-18 14:11:36

人工智能

當我們不停在CoT等領域大下苦功、試圖提升LLM推理準確性的同時，OpenAI的對齊團隊從另一個角度發(fā)現(xiàn)了華點——除了準確性，生成答案的清晰度、可讀性和可驗證性也同樣重要。

不知道你有沒有過這樣的經歷：碰到一道做不出的數學題，于是丟給ChatGPT。

結果一通生成之后，ChatGPT的「不知所云」讓你從之前的略有頭緒瞬間變成完全迷茫。不管它是對是錯，反正人類是看不懂了。

圖片

提高LLM的數學和推理能力是最近研究關注的焦點，但同樣重要的是，確保模型生成可理解的文本。

否則即使答案正確，99%的人類都理解不了，也不能讓LLM真正協(xié)助我們處理復雜任務。

OpenAI近期發(fā)表的一篇論文就旨在研究并解決模型性能和可讀性（legibility）之間的平衡。

圖片

論文地址：https://openai.com/index/prover-verifier-games-improve-legibility/

和之前發(fā)出來的兩篇一樣，這次又是Jan Leike的庫存作品，但共同一作是兩位在職研究員Jan Hendrik Kirchner和Yining Chen。

估計超級對齊團隊的「遺作」夠OpenAI發(fā)一陣子了

通過優(yōu)化提升可讀性

論文發(fā)現(xiàn)，如果僅僅針對答案正確性來訓練模型，其中一個副作用是，可能會讓LLM的輸出變得難以理解。

如果讓人類評估者對高度優(yōu)化的答案進行評價，在有限時間內（45s）的評估準確率會明顯下降（圖4b），正確評估所需的時間也逐步增長（圖4c）。

圖片

因此，提升LLM響應的可讀性，不僅能增強其可信度，還有助于準確的驗證和評價。

響應輸出「可讀性」與模型的「可解釋性」（explainabiliby）之間，有什么聯(lián)系？

作者給出的解釋是：兩者是互補屬性，都可以脫離另一個而單獨存在。

「可解釋性」試圖描述模型的推理過程，無論推理本身是否正確，而且最終的生成也可以無限復雜。

而「可讀性」忽略模型如何產生推理過程，只要求輸出連貫且便于人類理解。

為了提升可讀性，論文提出的思路是：用小學數學題（GSM數據集）訓練較高級的模型，讓它創(chuàng)建較弱模型也能輕松驗證的文本答案，這個過程就是「證明者-驗證者博弈」（prover-verifier games）。

這是一種博弈論框架，其中較強模型擔任「證明者」負責解決生成方案，較弱模型擔任「驗證者」檢查其準確性。

圖片

實驗證明，這種方法不僅提升了輸出內容的正確性，也能讓人類和其他AI系統(tǒng)更易于理解并驗證。

同時，作者提出，進一步縮小可讀性模型（驗證者）與高性能模型（證明者）之間的性能差距，將是未來對齊研究的重要目標。

工作原理

實驗中，GPT-4系列的大模型和小模型分別擔任「證明者」和「驗證者」，它們在預訓練計算量上相差約3個數量級。

這些模型都在人類書寫的數學推導上進行了少量監(jiān)督訓練，但沒有進行廣泛的后續(xù)訓練（post-training）。

首先，證明者模型生成多個數學問題的解決方案，由于模型本身產生的錯誤，其中一些解決方案是不正確的。

然后，在下面兩個階段之間交替進行多輪訓練：

- 驗證者訓練：訓練較弱的驗證者模型，預測證明者生成解決方案的正確性

- 證明者訓練：指示能力較強的證明者模型扮演「有幫助的」或「狡猾的」角色

對于「有幫助」的角色，我們獎勵驗證者打出高分正確答案；對于「狡猾」角色則相反，獎勵驗證者評分高的錯誤答案。

從論文中給出的樣例可以看到，在每一輪的可檢查性訓練（checkability）中，模型輸出答案的清晰度和可讀性都在逐步提升。

比如下面這個問題：

Shawna的父親的年齡是Shawna的五倍。Shawna目前的年齡是Aliya的三倍。如果Aliya現(xiàn)在3歲，Shawna的父親多大？

模型初始化時給出如下答案：

根據題目，Shawna目前$3^2=9$歲。

這意味著 Shawna的父親目前$9\cdot5=4$歲。

答案是：45

圖片

第一輪訓練后，模型在原來正確答案的基礎上加入了推理過程，感覺是參考答案「簡略版」和「詳細版」的區(qū)別：

首先我們需要確定Aliya的年齡。根據問題描述，Aliya 3歲。

然后我們需要確定Shawna的年齡。根據問題描述，Shawna目前的年齡是Aliya的三倍，所以Shawna的年齡是3乘以3，結果是<<3*3=9>>9。

接下來，我們需要確定Shawna 父親的年齡。題目中提到Shawna的父親年齡是Shawna的五倍。因此Shawna的父親的年齡是5乘以9，結果是<<5*9=45>>45。

答案是：45

圖片

如果說上面的答案在詳細之余顯得有些冗余，下面這個5輪訓練后的答案就進一步平衡了「全面詳細」和「簡潔精煉」。

我們從計算Aliya的年齡開始。

根據題目描述，Aliya 3歲。

然后，我們需要計算Shawna當前的年齡。

Shawna目前的年齡是Aliya的三倍。因此，Shawna當前的年齡是3乘以3，結果是 <<3*3=9>>9。

現(xiàn)在我們需要計算Shawna父親的年齡。

Shawna的父親年齡是Shawna的五倍。因此，Shawna的父親的年齡是5乘以9，結果是 <<5*9=45>>45。

因此，Shawna的父親的年齡是45。

答案是：45

圖片

而且，這種多輪訓練也能增強驗證者逐漸辨別「狡猾」證明者的能力。

在最初的實驗中，「狡猾」的證明者能夠輕松生成讓驗證者信服的錯誤答案。但這些答案被添加到下一輪后，就無法再騙過驗證者。

于是，隨著驗證者能力的提升，每一輪訓練都激勵「狡猾」的證明者探索不同的策略「瞞天過海」。

比如，同樣是上面的問題，「狡猾」的證明者第一輪所犯的錯誤非常簡單直接：把5×9的結果算成36。

圖片

到第三輪時，模型選擇在問題語義上動手腳，偷偷把第一步計算中的「3倍」變成「5倍」，錯誤更加隱蔽。

圖片

一旦后者無法再騙過前者時，訓練結束。

關鍵結果

基線

根據上述的實驗思路，一個自然的基線設置就是忽略可讀性，讓模型只優(yōu)化正確性。本文選擇采用強化學習（RL）方法微調LLM。

從圖4中可以看到，這種方法能夠讓模型在小學數學題上取得優(yōu)異的準確率，但生成答案的可讀性也隨之顯著降低，提升了人類的評估難度。

圖片

權衡

圖5展示了博弈中各種角色在訓練過程中的動態(tài)變化。可以看到，隨著訓練步數增加，證明者們對驗證者的說服能力逐漸提高（5a），但答案的準確性并不是單調變化，會出現(xiàn)顯著波動（5b）。

使用更大的驗證者模型時（訓練計算量從證明者的10^-3增長到10^-1.8），也能發(fā)現(xiàn)類似的變化趨勢（圖c）。

圖片

但說服力的提升并不意味著驗證者模型分辨能力的停滯或弱化。正相反，驗證者的穩(wěn)健性逐步提高，「狡猾」的模型需要越來越多的步驟才能騙過驗證者，直至最后無法成功欺騙（圖6）。

圖片

實驗關注的核心——「有用」的證明者，在訓練過程中實現(xiàn)了答案準確性和可讀性的同步提升（圖8），尤其是與僅針對正確性的訓練（圖4）相比。這表明驗證者模型的反饋起到了有效作用。

圖片

綜合上述結果，從更抽象的層次來看（圖1），這種訓練方法能使強大的證明者模型在不損失可讀性的同時，實現(xiàn)生成答案準確率的一定提升。

這種方法的代價就是，準確率的提升幅度相比之前的RL方法有所下降。這個差距被作者命名為「可讀稅」（legibility tax）。

圖片

研究結論

通過解決小學數學應用題這個具體的實驗設置，論文探索了模型性能和答案易讀性之間存在的張力，并提出了一種權衡方法。

實驗結果投射出一種希望——我們可以期待LLM在未來變得比人類更有能力，同時人類也依舊能夠理解并信任模型給出的解決方案。

在此基礎上，未來研究有多個繼續(xù)拓展的方向，比如提高易讀性的半監(jiān)督/無監(jiān)督方法、提高樣本效率，以及系統(tǒng)性地研究對于人類的易讀性，而非只是用較弱模型代替人類判斷。

局限性

論文從數據集、研究思路和范圍、實驗設置等多方面進行了局限性分析。

數據集方面，研究僅使用了一個數據集GSM，問題相對簡單，解決方案也相當標準化。不能確定這種訓練框架對更困難的數學和編碼問題，或者更模糊的領域（如人類偏好數據）依舊適用。

這項研究聚焦了用自然語言解釋的數學問題，是因為數學問題的正確性易于判斷，且人類通常使用自然語言解釋論證過程。

然而，某些領域的結論是難以用自然語言描述的，比如面孔識別。你很難用語言向別人描述自己「認臉」的過程。

同時，論文提出的主要訓練方法「驗證者-證明者博弈」，將CoT過程和可讀性提升混合在一起，這對CoT的準確性造成了潛在限制。

更好的方法可能是分開訓練，先讓第一個模型用CoT最大限度提升準確性，然后訓練第二個模型提升生成答案的可讀性，這樣可以進一步降低對模型準確性的損失。

實驗設置方面，整篇論文沒有對所有超參數進行全面調整，而且混合了兩種訓練停止標準：達到固定數量的RL步，或發(fā)現(xiàn)「狡猾」證明者無法騙過驗證者時。但實驗中并沒有觀察到早停輪和非早停輪之間有質的差異。

作者簡介

本文的共同一作之一Yining Chen是南京外國語學校的校友，本科畢業(yè)于達特茅斯學院，獲得計算機科學和哲學雙專業(yè)的學士學位，后前往斯坦福攻讀博士，師從馬騰宇教授。

去年7月畢業(yè)后，Yining進入OpenAI對齊團隊任職至今。此前OpenAI發(fā)表的Weak-to-strong generalization論文也有她的參與。

圖片

論文地址：https://openai.com/index/weak-to-strong-generalization/

參考資料：https://x.com/OpenAI/status/1813623470452064432

責任編輯：武曉燕來源：新智元

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI超級對齊團隊再發(fā)「絕唱」！首提「證明者-驗證者」博弈，訓練GPT說人話

通過優(yōu)化提升可讀性

工作原理

關鍵結果

基線

權衡

研究結論

局限性

作者簡介