成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI發(fā)布最新大模型安全對(duì)齊獎(jiǎng)勵(lì)方法——RBR

發(fā)布于 2024-7-29 08:57
瀏覽
0收藏

隨著ChatGPT等產(chǎn)品的廣泛應(yīng)用,確保其輸出的安全性成為場(chǎng)景化落地的關(guān)鍵。傳統(tǒng)方法是使用RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))來(lái)進(jìn)行安全對(duì)齊,但有兩大局限性難以持續(xù)使用。


1)收集和維護(hù)人類(lèi)反饋數(shù)據(jù)不僅成本高昂,并且隨著大模型能力的提高以及用戶(hù)行為的變化,現(xiàn)有的數(shù)據(jù)很快就會(huì)過(guò)時(shí)失效;

2)如果數(shù)據(jù)標(biāo)注者存在個(gè)人偏見(jiàn),會(huì)導(dǎo)致模型的輸出出現(xiàn)極大偏差,例如,標(biāo)注人對(duì)黑人


有歧視,就會(huì)在生成CEO等高端形象時(shí)偏向白人(這個(gè)情況真實(shí)發(fā)生過(guò))。

所以,OpenAI提出了一個(gè)更高效的安全對(duì)齊獎(jiǎng)勵(lì)方法Rule Based Rewards(簡(jiǎn)稱(chēng)“RBR”)。


論文地址:??https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf?ref??

OpenAI發(fā)布最新大模型安全對(duì)齊獎(jiǎng)勵(lì)方法——RBR-AI.x社區(qū)

與傳統(tǒng)方法RLHF不同的是,RBR可將大模型期望的行為分解為一系列具體的規(guī)則。這些規(guī)則明確描述了期望和不期望的行為,例如,拒絕應(yīng)該包含簡(jiǎn)短的道歉;拒絕應(yīng)該具有評(píng)判性;對(duì)自我傷害對(duì)話(huà)的回應(yīng),應(yīng)包含同情的道歉等。


這種規(guī)則的分離類(lèi)似于人類(lèi)反饋方法中提出的規(guī)則,但研究人員使用了AI反饋而非人類(lèi)反饋,同時(shí)允許對(duì)大模型的輸出進(jìn)行細(xì)粒度控制。

細(xì)粒度控制

細(xì)粒度控制可將我們對(duì)模型行為的期望轉(zhuǎn)化為一系列精細(xì)的規(guī)則。這些規(guī)則非常具體,能指導(dǎo)大模型在面對(duì)不同請(qǐng)求時(shí),如何做出恰當(dāng)、正確的回應(yīng)。


例如,如果用戶(hù)提出一個(gè)不恰當(dāng)?shù)恼?qǐng)求,模型不僅應(yīng)該拒絕回答,而且應(yīng)該以一種禮貌和尊重的方式進(jìn)行。這種方法允許研究人員對(duì)模型的輸出進(jìn)行精確的調(diào)節(jié),確保其在保持有用性的同時(shí),不會(huì)逾越安全邊界。

OpenAI發(fā)布最新大模型安全對(duì)齊獎(jiǎng)勵(lì)方法——RBR-AI.x社區(qū)

為了實(shí)現(xiàn)這種控制,RBR構(gòu)建了一系列命題,這些命題是關(guān)于模型輸出的二元陳述,它們是評(píng)估模型行為的基礎(chǔ)。


例如,一個(gè)命題可能是“輸出包含對(duì)用戶(hù)請(qǐng)求的道歉”。通過(guò)對(duì)這些命題的真假進(jìn)行評(píng)估,開(kāi)發(fā)人員能夠確定模型的輸出是否符合預(yù)期的行為規(guī)范。


接著,研究人員將這些命題組合成規(guī)則,定義了在特定情況下哪些命題的組合是期望的,哪些是不期望的


例如,在處理自我傷害相關(guān)的請(qǐng)求時(shí),模型的響應(yīng)應(yīng)該包含共情的道歉,并且避免提供具體的自我傷害方法。這樣的規(guī)則使得模型在面對(duì)敏感話(huà)題時(shí),能夠以一種安全和負(fù)責(zé)任的方式進(jìn)行回應(yīng)。

合成數(shù)據(jù)生成

由于命題的二元特性,研究人員可以輕松地根據(jù)行為政策生成各種合成完成情況,這些完成情況代表了理想完成、次優(yōu)完成和不可接受完成。合成數(shù)據(jù)不僅用于訓(xùn)練模型,也用于評(píng)估和調(diào)整RBR的權(quán)重,確保模型的輸出符合預(yù)期的規(guī)則。


合成數(shù)據(jù)的生成過(guò)程是一個(gè)自動(dòng)化的流程,它從一個(gè)行為指令開(kāi)始,通過(guò)一系列命題和規(guī)則,生成具有不同特征的完成情況。

OpenAI發(fā)布最新大模型安全對(duì)齊獎(jiǎng)勵(lì)方法——RBR-AI.x社區(qū)

例如,對(duì)于一個(gè)需要硬拒絕的請(qǐng)求,研究人員可以生成一個(gè)完美的拒絕示例,其中包含簡(jiǎn)短的道歉和聲明無(wú)法遵守的聲明;


同時(shí),也可以生成包含評(píng)判性語(yǔ)言或不合邏輯的延續(xù)的不良拒絕示例。這些合成數(shù)據(jù)為模型提供了豐富的學(xué)習(xí)樣本,幫助它理解在不同情境下應(yīng)該如何做出恰當(dāng)?shù)捻憫?yīng)


為了測(cè)試RBR的性能,研究人員對(duì)比了RBR訓(xùn)練的模型與人類(lèi)安全數(shù)據(jù)基線(xiàn)訓(xùn)練的模型。實(shí)驗(yàn)結(jié)果顯示,RBR能夠在提高安全性的同時(shí),最大限度地減少過(guò)度拒絕的情況,實(shí)現(xiàn)了更安全的輸出。

OpenAI發(fā)布最新大模型安全對(duì)齊獎(jiǎng)勵(lì)方法——RBR-AI.x社區(qū)

在內(nèi)部安全評(píng)估中,RBR訓(xùn)練的模型(RBR - PPO)在安全性和過(guò)度拒絕指標(biāo)上表現(xiàn)出色,F(xiàn)1分?jǐn)?shù)達(dá)到97.1,高于人類(lèi)反饋基線(xiàn)的91.7和有助益基線(xiàn)的95.8。


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/0FkYBl3QV2OLSJw67EGLrA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲欧美日韩在线 | av一区二区三区 | 久久91av | 亚洲一区二区三区四区五区午夜 | 一道本一区二区 | 国产91一区二区三区 | 毛片一区二区 | 中国黄色毛片视频 | 中文字幕视频在线 | 五月婷六月丁香 | 国产成人免费视频 | 久久国产精品精品 | 一级做a爰片久久毛片 | 午夜影院网站 | 免费在线黄色av | 香蕉视频久久久 | 国产在线视频一区二区董小宛性色 | 久久蜜桃精品 | 欧美日韩国产一区二区三区 | 请别相信他免费喜剧电影在线观看 | 在线观看中文字幕亚洲 | 综合二区 | 国产精品成人国产乱一区 | 国产欧美精品区一区二区三区 | 精品久久久久久亚洲精品 | 日本精品裸体写真集在线观看 | 91操操操 | 国产精品成人一区 | 中文字幕在线免费视频 | 毛片视频免费观看 | 午夜免费福利片 | 精品国产青草久久久久福利 | 久久视频免费观看 | 国产亚洲精品久久午夜玫瑰园 | 男插女下体视频 | 91影院在线观看 | 国产亚洲一区精品 | 日韩在线一区二区三区 | 精品中文在线 | 在线观看 亚洲 | 国产美女在线免费观看 |