成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI超級對齊團隊再發(fā)「絕唱」!首提「證明者-驗證者」博弈,訓練GPT說人話

人工智能
當我們不停在CoT等領域大下苦功、試圖提升LLM推理準確性的同時,OpenAI的對齊團隊從另一個角度發(fā)現(xiàn)了華點——除了準確性,生成答案的清晰度、可讀性和可驗證性也同樣重要。

不知道你有沒有過這樣的經歷:碰到一道做不出的數學題,于是丟給ChatGPT。

結果一通生成之后,ChatGPT的「不知所云」讓你從之前的略有頭緒瞬間變成完全迷茫。不管它是對是錯,反正人類是看不懂了。

圖片圖片

提高LLM的數學和推理能力是最近研究關注的焦點,但同樣重要的是,確保模型生成可理解的文本。

否則即使答案正確,99%的人類都理解不了,也不能讓LLM真正協(xié)助我們處理復雜任務。

OpenAI近期發(fā)表的一篇論文就旨在研究并解決模型性能和可讀性(legibility)之間的平衡。

圖片圖片

論文地址:https://openai.com/index/prover-verifier-games-improve-legibility/

和之前發(fā)出來的兩篇一樣,這次又是Jan Leike的庫存作品,但共同一作是兩位在職研究員Jan Hendrik Kirchner和Yining Chen。

圖片

估計超級對齊團隊的「遺作」夠OpenAI發(fā)一陣子了

通過優(yōu)化提升可讀性

論文發(fā)現(xiàn),如果僅僅針對答案正確性來訓練模型,其中一個副作用是,可能會讓LLM的輸出變得難以理解。

如果讓人類評估者對高度優(yōu)化的答案進行評價,在有限時間內(45s)的評估準確率會明顯下降(圖4b),正確評估所需的時間也逐步增長(圖4c)。

圖片圖片

因此,提升LLM響應的可讀性,不僅能增強其可信度,還有助于準確的驗證和評價。

響應輸出「可讀性」與模型的「可解釋性」(explainabiliby)之間,有什么聯(lián)系?

作者給出的解釋是:兩者是互補屬性,都可以脫離另一個而單獨存在。

「可解釋性」試圖描述模型的推理過程,無論推理本身是否正確,而且最終的生成也可以無限復雜。

而「可讀性」忽略模型如何產生推理過程,只要求輸出連貫且便于人類理解。

為了提升可讀性,論文提出的思路是:用小學數學題(GSM數據集)訓練較高級的模型,讓它創(chuàng)建較弱模型也能輕松驗證的文本答案,這個過程就是「證明者-驗證者博弈」(prover-verifier games)。

這是一種博弈論框架,其中較強模型擔任「證明者」負責解決生成方案,較弱模型擔任「驗證者」檢查其準確性。

圖片圖片

實驗證明,這種方法不僅提升了輸出內容的正確性,也能讓人類和其他AI系統(tǒng)更易于理解并驗證。

同時,作者提出,進一步縮小可讀性模型(驗證者)與高性能模型(證明者)之間的性能差距,將是未來對齊研究的重要目標。

工作原理

實驗中,GPT-4系列的大模型和小模型分別擔任「證明者」和「驗證者」,它們在預訓練計算量上相差約3個數量級。

這些模型都在人類書寫的數學推導上進行了少量監(jiān)督訓練,但沒有進行廣泛的后續(xù)訓練(post-training)。

首先,證明者模型生成多個數學問題的解決方案,由于模型本身產生的錯誤,其中一些解決方案是不正確的。

然后,在下面兩個階段之間交替進行多輪訓練:

- 驗證者訓練:訓練較弱的驗證者模型,預測證明者生成解決方案的正確性

- 證明者訓練:指示能力較強的證明者模型扮演「有幫助的」或「狡猾的」角色

對于「有幫助」的角色,我們獎勵驗證者打出高分正確答案;對于「狡猾」角色則相反,獎勵驗證者評分高的錯誤答案。

從論文中給出的樣例可以看到,在每一輪的可檢查性訓練(checkability)中,模型輸出答案的清晰度和可讀性都在逐步提升。

比如下面這個問題:

Shawna的父親的年齡是Shawna的五倍。Shawna目前的年齡是Aliya的三倍。如果Aliya現(xiàn)在3歲,Shawna的父親多大?

模型初始化時給出如下答案:

根據題目,Shawna目前$3^2=9$歲。

這意味著 Shawna的父親目前$9\cdot5=4$歲。

答案是:45

圖片圖片

第一輪訓練后,模型在原來正確答案的基礎上加入了推理過程,感覺是參考答案「簡略版」和「詳細版」的區(qū)別:

首先我們需要確定Aliya的年齡。根據問題描述,Aliya 3歲。

然后我們需要確定Shawna的年齡。根據問題描述,Shawna目前的年齡是Aliya的三倍,所以Shawna的年齡是3乘以3,結果是<<3*3=9>>9。

接下來,我們需要確定Shawna 父親的年齡。題目中提到Shawna的父親年齡是Shawna的五倍。因此Shawna的父親的年齡是5乘以9,結果是<<5*9=45>>45。

答案是:45

圖片圖片

如果說上面的答案在詳細之余顯得有些冗余,下面這個5輪訓練后的答案就進一步平衡了「全面詳細」和「簡潔精煉」。

我們從計算Aliya的年齡開始。

根據題目描述,Aliya 3歲。

然后,我們需要計算Shawna當前的年齡。

Shawna目前的年齡是Aliya的三倍。因此,Shawna當前的年齡是3乘以3,結果是 <<3*3=9>>9。

現(xiàn)在我們需要計算Shawna父親的年齡。

Shawna的父親年齡是Shawna的五倍。因此,Shawna的父親的年齡是5乘以9,結果是 <<5*9=45>>45。

因此,Shawna的父親的年齡是45。

答案是:45

圖片圖片

而且,這種多輪訓練也能增強驗證者逐漸辨別「狡猾」證明者的能力。

在最初的實驗中,「狡猾」的證明者能夠輕松生成讓驗證者信服的錯誤答案。但這些答案被添加到下一輪后,就無法再騙過驗證者。

于是,隨著驗證者能力的提升,每一輪訓練都激勵「狡猾」的證明者探索不同的策略「瞞天過海」。

比如,同樣是上面的問題,「狡猾」的證明者第一輪所犯的錯誤非常簡單直接:把5×9的結果算成36。

圖片圖片

到第三輪時,模型選擇在問題語義上動手腳,偷偷把第一步計算中的「3倍」變成「5倍」,錯誤更加隱蔽。

圖片圖片

一旦后者無法再騙過前者時,訓練結束。

關鍵結果

基線

根據上述的實驗思路,一個自然的基線設置就是忽略可讀性,讓模型只優(yōu)化正確性。本文選擇采用強化學習(RL)方法微調LLM。

從圖4中可以看到,這種方法能夠讓模型在小學數學題上取得優(yōu)異的準確率,但生成答案的可讀性也隨之顯著降低,提升了人類的評估難度。

圖片圖片

權衡

圖5展示了博弈中各種角色在訓練過程中的動態(tài)變化。可以看到,隨著訓練步數增加,證明者們對驗證者的說服能力逐漸提高(5a),但答案的準確性并不是單調變化,會出現(xiàn)顯著波動(5b)。

使用更大的驗證者模型時(訓練計算量從證明者的10^-3增長到10^-1.8),也能發(fā)現(xiàn)類似的變化趨勢(圖c)。

圖片圖片

但說服力的提升并不意味著驗證者模型分辨能力的停滯或弱化。正相反,驗證者的穩(wěn)健性逐步提高,「狡猾」的模型需要越來越多的步驟才能騙過驗證者,直至最后無法成功欺騙(圖6)。

圖片圖片

實驗關注的核心——「有用」的證明者,在訓練過程中實現(xiàn)了答案準確性和可讀性的同步提升(圖8),尤其是與僅針對正確性的訓練(圖4)相比。這表明驗證者模型的反饋起到了有效作用。

圖片圖片

綜合上述結果,從更抽象的層次來看(圖1),這種訓練方法能使強大的證明者模型在不損失可讀性的同時,實現(xiàn)生成答案準確率的一定提升。

這種方法的代價就是,準確率的提升幅度相比之前的RL方法有所下降。這個差距被作者命名為「可讀稅」(legibility tax)。

圖片圖片

研究結論

通過解決小學數學應用題這個具體的實驗設置,論文探索了模型性能和答案易讀性之間存在的張力,并提出了一種權衡方法。

實驗結果投射出一種希望——我們可以期待LLM在未來變得比人類更有能力,同時人類也依舊能夠理解并信任模型給出的解決方案。

在此基礎上,未來研究有多個繼續(xù)拓展的方向,比如提高易讀性的半監(jiān)督/無監(jiān)督方法、提高樣本效率,以及系統(tǒng)性地研究對于人類的易讀性,而非只是用較弱模型代替人類判斷。

局限性

論文從數據集、研究思路和范圍、實驗設置等多方面進行了局限性分析。

數據集方面,研究僅使用了一個數據集GSM,問題相對簡單,解決方案也相當標準化。不能確定這種訓練框架對更困難的數學和編碼問題,或者更模糊的領域(如人類偏好數據)依舊適用。

這項研究聚焦了用自然語言解釋的數學問題,是因為數學問題的正確性易于判斷,且人類通常使用自然語言解釋論證過程。

然而,某些領域的結論是難以用自然語言描述的,比如面孔識別。你很難用語言向別人描述自己「認臉」的過程。

同時,論文提出的主要訓練方法「驗證者-證明者博弈」,將CoT過程和可讀性提升混合在一起,這對CoT的準確性造成了潛在限制。

更好的方法可能是分開訓練,先讓第一個模型用CoT最大限度提升準確性,然后訓練第二個模型提升生成答案的可讀性,這樣可以進一步降低對模型準確性的損失。

實驗設置方面,整篇論文沒有對所有超參數進行全面調整,而且混合了兩種訓練停止標準:達到固定數量的RL步,或發(fā)現(xiàn)「狡猾」證明者無法騙過驗證者時。但實驗中并沒有觀察到早停輪和非早停輪之間有質的差異。

作者簡介

本文的共同一作之一Yining Chen是南京外國語學校的校友,本科畢業(yè)于達特茅斯學院,獲得計算機科學和哲學雙專業(yè)的學士學位,后前往斯坦福攻讀博士,師從馬騰宇教授。

圖片

去年7月畢業(yè)后,Yining進入OpenAI對齊團隊任職至今。此前OpenAI發(fā)表的Weak-to-strong generalization論文也有她的參與。

圖片圖片

論文地址:https://openai.com/index/weak-to-strong-generalization/

參考資料:https://x.com/OpenAI/status/1813623470452064432

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-12-16 09:45:56

論文GPT-4AI

2023-12-18 16:02:04

OpenAI人工智能

2024-07-18 13:19:17

2023-08-11 13:41:42

2024-06-28 13:40:03

2023-12-15 12:52:17

AI模型

2023-06-08 07:58:29

2024-07-18 12:52:50

2010-05-10 13:37:15

2024-04-15 06:30:00

2012-03-29 16:55:24

N9MeeGo諾基亞

2024-06-07 18:14:53

2023-11-26 17:50:00

AI模型

2024-09-18 10:37:00

強化學習AI模型

2023-07-06 07:40:31

OpenAI人工智能

2023-04-15 19:37:50

OpenAIGPT-5

2024-06-07 16:40:53

2024-02-01 21:27:25

2024-01-11 07:28:42

2023-08-02 00:19:46

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 女女百合av大片一区二区三区九县 | 日韩视频一区 | a视频在线观看 | 久久久久久高清 | 2021天天干夜夜爽 | 欧美日本亚洲 | 91精品国产乱码久久久久久久久 | 久草综合在线 | 一级片网站视频 | 免费观看的黄色网址 | 国产色婷婷久久99精品91 | 精品视频一区在线 | 亚洲一区欧美 | 一级黄色录像片子 | 成人免费av | 日本欧美国产 | 国产成人精品久久二区二区 | 久久久久亚洲 | 精品国产一区二区三区久久狼黑人 | 精品一区二区av | 久久久精品网站 | 午夜精品久久久久久久星辰影院 | 97视频人人澡人人爽 | 日韩精品一区二区三区免费观看 | 久久精品91久久久久久再现 | 国产精品欧美一区二区三区 | 在线观看免费黄色片 | 国产三级精品三级在线观看四季网 | 亚洲第一福利视频 | 国产乱精品一区二区三区 | 日本一区二区高清不卡 | 国产欧美性成人精品午夜 | 黄色大片网| 欧美一级片在线看 | 色在线看 | 国产精品中文字幕在线播放 | 亚洲精品一区二区三区蜜桃久 | 欧美激情综合色综合啪啪五月 | 少妇一级淫片免费放播放 | 国产精品成人久久久久 | 久久精品成人 |