OpenAI超級對齊團隊再發(fā)「絕唱」!首提「證明者-驗證者」博弈,訓練GPT說人話
不知道你有沒有過這樣的經歷:碰到一道做不出的數學題,于是丟給ChatGPT。
結果一通生成之后,ChatGPT的「不知所云」讓你從之前的略有頭緒瞬間變成完全迷茫。不管它是對是錯,反正人類是看不懂了。
圖片
提高LLM的數學和推理能力是最近研究關注的焦點,但同樣重要的是,確保模型生成可理解的文本。
否則即使答案正確,99%的人類都理解不了,也不能讓LLM真正協(xié)助我們處理復雜任務。
OpenAI近期發(fā)表的一篇論文就旨在研究并解決模型性能和可讀性(legibility)之間的平衡。
圖片
論文地址:https://openai.com/index/prover-verifier-games-improve-legibility/
和之前發(fā)出來的兩篇一樣,這次又是Jan Leike的庫存作品,但共同一作是兩位在職研究員Jan Hendrik Kirchner和Yining Chen。
估計超級對齊團隊的「遺作」夠OpenAI發(fā)一陣子了
通過優(yōu)化提升可讀性
論文發(fā)現(xiàn),如果僅僅針對答案正確性來訓練模型,其中一個副作用是,可能會讓LLM的輸出變得難以理解。
如果讓人類評估者對高度優(yōu)化的答案進行評價,在有限時間內(45s)的評估準確率會明顯下降(圖4b),正確評估所需的時間也逐步增長(圖4c)。
圖片
因此,提升LLM響應的可讀性,不僅能增強其可信度,還有助于準確的驗證和評價。
響應輸出「可讀性」與模型的「可解釋性」(explainabiliby)之間,有什么聯(lián)系?
作者給出的解釋是:兩者是互補屬性,都可以脫離另一個而單獨存在。
「可解釋性」試圖描述模型的推理過程,無論推理本身是否正確,而且最終的生成也可以無限復雜。
而「可讀性」忽略模型如何產生推理過程,只要求輸出連貫且便于人類理解。
為了提升可讀性,論文提出的思路是:用小學數學題(GSM數據集)訓練較高級的模型,讓它創(chuàng)建較弱模型也能輕松驗證的文本答案,這個過程就是「證明者-驗證者博弈」(prover-verifier games)。
這是一種博弈論框架,其中較強模型擔任「證明者」負責解決生成方案,較弱模型擔任「驗證者」檢查其準確性。
圖片
實驗證明,這種方法不僅提升了輸出內容的正確性,也能讓人類和其他AI系統(tǒng)更易于理解并驗證。
同時,作者提出,進一步縮小可讀性模型(驗證者)與高性能模型(證明者)之間的性能差距,將是未來對齊研究的重要目標。
工作原理
實驗中,GPT-4系列的大模型和小模型分別擔任「證明者」和「驗證者」,它們在預訓練計算量上相差約3個數量級。
這些模型都在人類書寫的數學推導上進行了少量監(jiān)督訓練,但沒有進行廣泛的后續(xù)訓練(post-training)。
首先,證明者模型生成多個數學問題的解決方案,由于模型本身產生的錯誤,其中一些解決方案是不正確的。
然后,在下面兩個階段之間交替進行多輪訓練:
- 驗證者訓練:訓練較弱的驗證者模型,預測證明者生成解決方案的正確性
- 證明者訓練:指示能力較強的證明者模型扮演「有幫助的」或「狡猾的」角色
對于「有幫助」的角色,我們獎勵驗證者打出高分正確答案;對于「狡猾」角色則相反,獎勵驗證者評分高的錯誤答案。
從論文中給出的樣例可以看到,在每一輪的可檢查性訓練(checkability)中,模型輸出答案的清晰度和可讀性都在逐步提升。
比如下面這個問題:
Shawna的父親的年齡是Shawna的五倍。Shawna目前的年齡是Aliya的三倍。如果Aliya現(xiàn)在3歲,Shawna的父親多大?
模型初始化時給出如下答案:
根據題目,Shawna目前$3^2=9$歲。
這意味著 Shawna的父親目前$9\cdot5=4$歲。
答案是:45
圖片
第一輪訓練后,模型在原來正確答案的基礎上加入了推理過程,感覺是參考答案「簡略版」和「詳細版」的區(qū)別:
首先我們需要確定Aliya的年齡。根據問題描述,Aliya 3歲。
然后我們需要確定Shawna的年齡。根據問題描述,Shawna目前的年齡是Aliya的三倍,所以Shawna的年齡是3乘以3,結果是<<3*3=9>>9。
接下來,我們需要確定Shawna 父親的年齡。題目中提到Shawna的父親年齡是Shawna的五倍。因此Shawna的父親的年齡是5乘以9,結果是<<5*9=45>>45。
答案是:45
圖片
如果說上面的答案在詳細之余顯得有些冗余,下面這個5輪訓練后的答案就進一步平衡了「全面詳細」和「簡潔精煉」。
我們從計算Aliya的年齡開始。
根據題目描述,Aliya 3歲。
然后,我們需要計算Shawna當前的年齡。
Shawna目前的年齡是Aliya的三倍。因此,Shawna當前的年齡是3乘以3,結果是 <<3*3=9>>9。
現(xiàn)在我們需要計算Shawna父親的年齡。
Shawna的父親年齡是Shawna的五倍。因此,Shawna的父親的年齡是5乘以9,結果是 <<5*9=45>>45。
因此,Shawna的父親的年齡是45。
答案是:45
圖片
而且,這種多輪訓練也能增強驗證者逐漸辨別「狡猾」證明者的能力。
在最初的實驗中,「狡猾」的證明者能夠輕松生成讓驗證者信服的錯誤答案。但這些答案被添加到下一輪后,就無法再騙過驗證者。
于是,隨著驗證者能力的提升,每一輪訓練都激勵「狡猾」的證明者探索不同的策略「瞞天過海」。
比如,同樣是上面的問題,「狡猾」的證明者第一輪所犯的錯誤非常簡單直接:把5×9的結果算成36。
圖片
到第三輪時,模型選擇在問題語義上動手腳,偷偷把第一步計算中的「3倍」變成「5倍」,錯誤更加隱蔽。
圖片
一旦后者無法再騙過前者時,訓練結束。
關鍵結果
基線
根據上述的實驗思路,一個自然的基線設置就是忽略可讀性,讓模型只優(yōu)化正確性。本文選擇采用強化學習(RL)方法微調LLM。
從圖4中可以看到,這種方法能夠讓模型在小學數學題上取得優(yōu)異的準確率,但生成答案的可讀性也隨之顯著降低,提升了人類的評估難度。
圖片
權衡
圖5展示了博弈中各種角色在訓練過程中的動態(tài)變化。可以看到,隨著訓練步數增加,證明者們對驗證者的說服能力逐漸提高(5a),但答案的準確性并不是單調變化,會出現(xiàn)顯著波動(5b)。
使用更大的驗證者模型時(訓練計算量從證明者的10^-3增長到10^-1.8),也能發(fā)現(xiàn)類似的變化趨勢(圖c)。
圖片
但說服力的提升并不意味著驗證者模型分辨能力的停滯或弱化。正相反,驗證者的穩(wěn)健性逐步提高,「狡猾」的模型需要越來越多的步驟才能騙過驗證者,直至最后無法成功欺騙(圖6)。
圖片
實驗關注的核心——「有用」的證明者,在訓練過程中實現(xiàn)了答案準確性和可讀性的同步提升(圖8),尤其是與僅針對正確性的訓練(圖4)相比。這表明驗證者模型的反饋起到了有效作用。
圖片
綜合上述結果,從更抽象的層次來看(圖1),這種訓練方法能使強大的證明者模型在不損失可讀性的同時,實現(xiàn)生成答案準確率的一定提升。
這種方法的代價就是,準確率的提升幅度相比之前的RL方法有所下降。這個差距被作者命名為「可讀稅」(legibility tax)。
圖片
研究結論
通過解決小學數學應用題這個具體的實驗設置,論文探索了模型性能和答案易讀性之間存在的張力,并提出了一種權衡方法。
實驗結果投射出一種希望——我們可以期待LLM在未來變得比人類更有能力,同時人類也依舊能夠理解并信任模型給出的解決方案。
在此基礎上,未來研究有多個繼續(xù)拓展的方向,比如提高易讀性的半監(jiān)督/無監(jiān)督方法、提高樣本效率,以及系統(tǒng)性地研究對于人類的易讀性,而非只是用較弱模型代替人類判斷。
局限性
論文從數據集、研究思路和范圍、實驗設置等多方面進行了局限性分析。
數據集方面,研究僅使用了一個數據集GSM,問題相對簡單,解決方案也相當標準化。不能確定這種訓練框架對更困難的數學和編碼問題,或者更模糊的領域(如人類偏好數據)依舊適用。
這項研究聚焦了用自然語言解釋的數學問題,是因為數學問題的正確性易于判斷,且人類通常使用自然語言解釋論證過程。
然而,某些領域的結論是難以用自然語言描述的,比如面孔識別。你很難用語言向別人描述自己「認臉」的過程。
同時,論文提出的主要訓練方法「驗證者-證明者博弈」,將CoT過程和可讀性提升混合在一起,這對CoT的準確性造成了潛在限制。
更好的方法可能是分開訓練,先讓第一個模型用CoT最大限度提升準確性,然后訓練第二個模型提升生成答案的可讀性,這樣可以進一步降低對模型準確性的損失。
實驗設置方面,整篇論文沒有對所有超參數進行全面調整,而且混合了兩種訓練停止標準:達到固定數量的RL步,或發(fā)現(xiàn)「狡猾」證明者無法騙過驗證者時。但實驗中并沒有觀察到早停輪和非早停輪之間有質的差異。
作者簡介
本文的共同一作之一Yining Chen是南京外國語學校的校友,本科畢業(yè)于達特茅斯學院,獲得計算機科學和哲學雙專業(yè)的學士學位,后前往斯坦福攻讀博士,師從馬騰宇教授。
去年7月畢業(yè)后,Yining進入OpenAI對齊團隊任職至今。此前OpenAI發(fā)表的Weak-to-strong generalization論文也有她的參與。
圖片
論文地址:https://openai.com/index/weak-to-strong-generalization/