成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法? 精華

發(fā)布于 2024-5-20 09:38
瀏覽
0收藏

在 AI 對齊問題上,在線方法似乎總是優(yōu)于離線方法,但為什么會這樣呢?近日,Google DeepMind 一篇論文試圖通過基于假設(shè)驗(yàn)證的實(shí)證研究給出解答。


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)



根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)隨著大型語言模型(LLM)發(fā)展而日漸成為一種用于 AI 對齊的常用框架。不過近段時間,直接偏好優(yōu)化(DPO)等離線方法異軍突起 —— 無需主動式的在線交互,使用離線數(shù)據(jù)集就能直接對齊 LLM。這類方法的效率很高,也已經(jīng)得到實(shí)證研究的證明。但這也引出了一個關(guān)鍵問題:


AI 對齊是否必需在線強(qiáng)化學(xué)習(xí)?


對于這個問題,人們希望既知道其理論上的答案,也希望明晰實(shí)驗(yàn)給出的解答。


從實(shí)證角度看,相比于大家常用的在線 RLHF(由偏好建模和從模型采樣組成),離線算法實(shí)現(xiàn)起來要簡單得多,成本也低得多。因此,收集有關(guān)離線算法的充分性的證據(jù)可讓 AI 對齊變得更加簡單。另一方面,如果能明晰常用在線 RLHF 的優(yōu)勢,也能讓我們理解在線交互的基本作用,洞見離線對齊方法的某些關(guān)鍵挑戰(zhàn)。


在線算法與離線算法的對比


要公平地比較在線和離線算法并非易事,因?yàn)樗鼈兇嬖谠S多實(shí)現(xiàn)和算法方面的差異。舉個例子,在線算法所需的計算量往往大于離線算法,因?yàn)樗枰蓸雍陀?xùn)練另一個模型。因此,為了比較公平,需要在衡量性能時對不同算法所耗費(fèi)的預(yù)算進(jìn)行一定的校準(zhǔn)。


在 DeepMind 的這項研究中,研究團(tuán)隊在比較時并未將計算量作為一個優(yōu)先考慮因素,而是采用了 Gao et al. (2023) 的論文《Scaling laws for reward model overoptimization》中的設(shè)置:使用 RLHF 策略和參考 SFT 策略之間的 KL 散度作為預(yù)算的衡量指標(biāo)。


在不同的算法和超參數(shù)設(shè)置中,KL 散度是以一種統(tǒng)一的方式衡量 RLHF 策略與 SFT 策略的偏離程度,從而能以一種經(jīng)過校準(zhǔn)的方式對算法進(jìn)行比較。


基于古德哈特定律比較在線和離線算法的性能


首先,該團(tuán)隊比較了在線和離線算法的過度優(yōu)化(over-optimization)行為 —— 該行為可通過將古德哈特定律外推至 AI 對齊領(lǐng)域而預(yù)測得到。


簡單總結(jié)起來,古德哈特定律(Goodhart’s law)可以表述成:一項指標(biāo)一旦變成了目標(biāo),它將不再是個好指標(biāo)。


該團(tuán)隊采用了與 Gao et al. (2023) 類似的設(shè)置,基于一組開源數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),結(jié)果表明:在同等的優(yōu)化預(yù)算(相對于 SFT 策略的 KL 散度)下,在線算法的性能表現(xiàn)通常優(yōu)于離線算法。


圖 1 給出了在線和離線算法在四個不同的開源數(shù)據(jù)集上表現(xiàn)出的 KL 散度與策略性能之間的權(quán)衡。圖中的每個數(shù)據(jù)點(diǎn)代表了在訓(xùn)練過程中某個特定檢查點(diǎn)下,針對特定一組超參數(shù)的策略評估結(jié)果。


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


其中,對于在線算法,超參數(shù)并未被大量調(diào)整,而是始終使用一組固定的超參數(shù);對于離線算法,則是將不同超參數(shù)的結(jié)果池化后得出。可以觀察到如下結(jié)果:


  • 符合古德哈特定律的過度優(yōu)化。不管是在線還是離線算法,性能都會隨 KL 散度先升后降。后期下降的原因是過度優(yōu)化效應(yīng),這符合古德哈特定律的預(yù)測。


  • 在線算法能比離線算法更高效地使用 KL 散度預(yù)算。相比于離線算法,在線算法似乎通常能實(shí)現(xiàn)更好的權(quán)衡。具體而言,在 KL 散度度量的預(yù)算一樣時,在線算法得到的性能通常優(yōu)于離線算法。在不同的 KL 散度層級上,在線算法在所有任務(wù)上的峰值性能都高于離線算法。其中,在 OpenAI 摘要和 Anthropic 輔助任務(wù)上的峰值性能差異顯著,在另兩個任務(wù)上的峰值差異較小。


總之,在線算法完全勝過離線算法,這也奠定了后續(xù)研究的基礎(chǔ)。


對于在線和離線算法性能差異的假設(shè)


為了更好地理解在線和離線算法性能差異的根源,該團(tuán)隊通過假設(shè)驗(yàn)證的形式進(jìn)行了研究。


也就是說首先提出一些假設(shè),然后驗(yàn)證它是否正確。先來看看他們提出了怎樣的假設(shè)。


假設(shè) 1:數(shù)據(jù)覆蓋情況。在線算法更優(yōu)的原因是其覆蓋的數(shù)據(jù)比離線數(shù)據(jù)集更多樣化(即隨時間變化采樣自不同的學(xué)習(xí)器策略)。


假設(shè) 2:次優(yōu)的離線數(shù)據(jù)集。離線算法處于劣勢,因?yàn)槠涑跏嫉钠脭?shù)據(jù)集是由一個次優(yōu)的策略生成的。如果使用有更高絕對質(zhì)量的響應(yīng)訓(xùn)練離線算法,則性能會更好。


假設(shè) 3:分類能力更好,則性能更好。離線算法通常是將策略作為分類器進(jìn)行訓(xùn)練。但是,作為分類器,它們可能并不如代理偏好模型那樣準(zhǔn)確(因?yàn)閷Ψ诸愡M(jìn)行參數(shù)化的有效方式不同)。如果準(zhǔn)確度提升,則其性能也會提升。


假設(shè) 4:非對比式損失函數(shù)。在這樣的性能差異中,有多大部分可歸因于對比式的損失函數(shù),而不是離線的樣本?


假設(shè) 5:擴(kuò)展策略就足夠了。要彌合在線和離線算法之間的差距,只需提升策略大小就足夠了。


實(shí)驗(yàn)和結(jié)果


實(shí)驗(yàn)設(shè)置


為了驗(yàn)證上述假設(shè),該團(tuán)隊進(jìn)行了大量對照實(shí)驗(yàn)。


所有實(shí)驗(yàn)都使用 T5X 模型,并搭配了 T5X 數(shù)據(jù)和計算框架。為了較好地覆蓋 RLHF 問題,他們研究了四種任務(wù):OpenAI 摘要、Anthropic 輔助、聊天競技場、Anthropic 無害性。


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


圖 2 給出了這些對照實(shí)驗(yàn)的設(shè)置情況,其整體上基于 Gao et al., 2023。其中,綠框表示數(shù)據(jù)集,藍(lán)框表示學(xué)習(xí)到的偏好模型或策略。


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


圖 3 則給出了在線生成數(shù)據(jù)集的圖示。這里的在線算法主要由代理偏好模型和在線學(xué)習(xí)的策略之間的交互組成。


該團(tuán)隊的實(shí)驗(yàn)研究涉及多個維度,其得到的主要結(jié)果如下。


數(shù)據(jù)


該團(tuán)隊提出的一些假設(shè)涉及到離線數(shù)據(jù)集的性質(zhì)。其中包括假設(shè)離線數(shù)據(jù)集的覆蓋情況比在線生成的數(shù)據(jù)集差;假設(shè)離線算法對離線數(shù)據(jù)集更敏感,而離線數(shù)據(jù)集中響應(yīng)的絕對質(zhì)量要差一些。(圖 4 和圖 5 分別證否了這兩個假設(shè))。


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


盡管這些假設(shè)聽上去似乎是對的,但實(shí)驗(yàn)結(jié)果表明它們無法可信地解釋在線和離線算法的性能差距。


他們通過消融研究發(fā)現(xiàn),提升離線優(yōu)化的一種有效方法是生成分布上接近起始 RLHF 策略(這里就剛好是 SFT 策略)的數(shù)據(jù),這本質(zhì)上就模仿了在線算法的起始階段。


優(yōu)化性質(zhì)


該團(tuán)隊發(fā)現(xiàn)判別能力和生成能力之間存在一種有趣的相互作用:盡管離線策略的分類能力勝過在線策略,但離線策略生成的響應(yīng)卻更差(見圖 6、7、8)。


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


不管是類間分類還是類內(nèi)分類實(shí)驗(yàn),分類性能和生成性能之間的關(guān)聯(lián)似乎都不大。盡管離線和在線采樣都是針對一個判別目標(biāo)優(yōu)化的,但離線采樣是提升在一個靜態(tài)數(shù)據(jù)集上的分類準(zhǔn)確度,而在線采樣則是通過不斷改變采樣分布來提升生成質(zhì)量。實(shí)驗(yàn)表明,離線策略的生成性能提升不如在線策略的直接。


損失函數(shù)與擴(kuò)展


為了確保所得結(jié)果更普適,他們還研究了用于 RLHF 的對比式和非對比式損失函數(shù)。


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


在線與離線性能之間的差距似乎總體上持續(xù)存在,盡管這種差異的根本原因可能與算法有關(guān)。他們也研究了性能差距隨策略網(wǎng)絡(luò)規(guī)模擴(kuò)展的變化情況(見圖 10 和 11)。性能差距一直存在這一事實(shí)說明:只是擴(kuò)展模型規(guī)模可能無法解決采樣問題。


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


在對齊 AI 時,為什么在線方法總是優(yōu)于離線方法?-AI.x社區(qū)


盡管實(shí)驗(yàn)結(jié)果暗示了在策略采樣對模型對齊的根本重要性,但這些結(jié)果也許有助于揭示離線對齊算法的實(shí)驗(yàn)內(nèi)部工作原理,并揭示性能差異的根源。總而言之,這些發(fā)現(xiàn)為 RLHF 實(shí)踐者提供了有趣的見解和挑戰(zhàn),并為更有效的 AI 對齊實(shí)踐鋪平了道路。


根據(jù)現(xiàn)有的強(qiáng)化學(xué)習(xí)研究成果,在線比離線更好似乎是顯而易見的結(jié)論。在線和離線強(qiáng)化學(xué)習(xí)算法之間的性能差距也已經(jīng)被多項研究發(fā)現(xiàn),所以這項研究給出了什么不一樣的結(jié)論呢?


最重要的是,在線 RLHF 算法依賴于一個學(xué)習(xí)后的獎勵模型,該獎勵模型是使用與離線 RLHF 算法一樣的成對偏好數(shù)據(jù)集訓(xùn)練得到的。這與常規(guī)強(qiáng)化學(xué)習(xí)設(shè)置存在根本性差異 —— 常規(guī)強(qiáng)化學(xué)習(xí)假設(shè)能以在線方式獲取基本真值獎勵,在這種情況下,在線強(qiáng)化學(xué)習(xí)的優(yōu)勢明顯。假設(shè) RLHF 受到獎勵信號的瓶頸限制,我們就不清楚在線與離線的差距是否還會這樣顯著。


從更技術(shù)性的角度來看,許多 RLHF 算法采用了上下文賭博機(jī)的設(shè)計形式,并針對參考策略應(yīng)用了正則化。這樣的算法細(xì)節(jié)讓 RLHF 偏離了常規(guī)的強(qiáng)化學(xué)習(xí)設(shè)置,這可能會影響離策略學(xué)習(xí)問題的嚴(yán)重程度。


本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/Sx9ec_dhdZ452uFqmqSxvw??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美一区二区三区在线看 | 91网站在线看 | 久色视频在线 | 亚洲精品免费在线观看 | 91精品国产99 | 久草热播| 成人做爰69片免费观看 | 国产成人综合在线 | 一区精品在线观看 | 成人片免费看 | 成人精品久久 | 成人免费一区二区三区视频网站 | 欧美激情国产精品 | 欧美黑人激情 | 日韩网| 日韩在线视频一区 | 久久亚洲一区 | www.亚洲一区 | 欧美日韩一区精品 | 一区二区三区欧美大片 | 日韩精品一区二区三区视频播放 | 特黄特色大片免费视频观看 | 福利视频一区二区 | 国产一区二区三区在线视频 | 狠狠色香婷婷久久亚洲精品 | 亚洲一区视频在线 | 一区二区三区视频在线 | 亚洲精品自在在线观看 | 中文字幕亚洲精品 | 在线日韩| 99精品视频免费在线观看 | 久久国产一区二区三区 | 淫片专区 | 午夜天堂精品久久久久 | 久久精品亚洲精品国产欧美kt∨ | 国产成人a亚洲精品 | 国产小视频在线 | 欧美性受xxxx白人性爽 | 欧美 视频 | 午夜无码国产理论在线 | 人和拘一级毛片c |