成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RLHF不夠用了,OpenAI設(shè)計(jì)出了新的獎(jiǎng)勵(lì)機(jī)制

人工智能 新聞
近日,OpenAI 公布了一種教導(dǎo) AI 模型遵守安全政策的新方法,稱(chēng)為基于規(guī)則的獎(jiǎng)勵(lì)(Rule-Based Rewards,RBR)。

自大模型興起以來(lái),使用強(qiáng)化學(xué)習(xí)從人類(lèi)反饋(RLHF)中微調(diào)語(yǔ)言模型一直是確保 AI 準(zhǔn)確遵循指令的首選方法。

為了確保 AI 系統(tǒng)安全運(yùn)行并與人類(lèi)價(jià)值觀保持一致,我們需要定義期望行為并收集人類(lèi)反饋來(lái)訓(xùn)練「獎(jiǎng)勵(lì)模型」。這種模型通過(guò)發(fā)出期望的動(dòng)作來(lái)指導(dǎo) AI。但是,收集這些常規(guī)和重復(fù)任務(wù)的人類(lèi)反饋通常效率不高。此外,如果安全政策發(fā)生變化,已經(jīng)收集的反饋可能會(huì)過(guò)時(shí),需要新的數(shù)據(jù)。

我們能否構(gòu)建一種新的機(jī)制來(lái)完成這些任務(wù)?近日,OpenAI 公布了一種教導(dǎo) AI 模型遵守安全政策的新方法,稱(chēng)為基于規(guī)則的獎(jiǎng)勵(lì)(Rule-Based Rewards,RBR)。 

相關(guān)論文已經(jīng)放出。

圖片

  • 論文標(biāo)題:Rule Based Rewards for Language Model Safety
  • 論文地址:https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
  • 代碼鏈接:https://github.com/openai/safety-rbr-code-and-data

論文作者之一、OpenAI 安全系統(tǒng)負(fù)責(zé)人 Lilian Weng 表示,「RBR 可以自動(dòng)執(zhí)行一些模型微調(diào)。傳統(tǒng)上, 我們依賴(lài)于來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí)作為默認(rèn)的對(duì)齊訓(xùn)練方法來(lái)訓(xùn)練模型,這確實(shí)有效。然而在實(shí)踐中,我們面臨的挑戰(zhàn)是,我們花了很多時(shí)間討論政策的細(xì)節(jié),而到最后,政策可能已經(jīng)發(fā)生了變化。」

RBR 根據(jù)一組安全規(guī)則提供 RL 信號(hào),使其更容易適應(yīng)不斷變化的安全政策,而無(wú)需嚴(yán)重依賴(lài)人類(lèi)數(shù)據(jù)。此外,借助 RBR,研究者能夠以更統(tǒng)一的視角看待安全性和模型能力,因?yàn)楦鼜?qiáng)大的分級(jí)模型可以提供更高質(zhì)量的 RL 信號(hào)。

OpenAI 表示自 GPT-4 發(fā)布以來(lái),他們一直將 RBR 用作安全堆棧的一部分,包括 GPT-4o mini,并計(jì)劃在未來(lái)的模型中實(shí)施它。

為什么要提出 RBR?  

隨著大型語(yǔ)言模型(LLM)功能的增強(qiáng)和普及,確保其安全性和對(duì)齊變得越來(lái)越重要。最近的許多工作都集中在使用人類(lèi)偏好數(shù)據(jù)來(lái)調(diào)整模型上,例如基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)。

然而,僅使用人類(lèi)反饋來(lái)實(shí)現(xiàn)目標(biāo)安全規(guī)范還面臨許多挑戰(zhàn)。為模型安全性收集和維護(hù)人類(lèi)數(shù)據(jù)通常既費(fèi)錢(qián)又費(fèi)時(shí),而且隨著模型能力的提高或用戶(hù)行為的改變,安全準(zhǔn)則也會(huì)發(fā)生變化,這些數(shù)據(jù)可能會(huì)過(guò)時(shí)。即使要求相對(duì)穩(wěn)定,也很難向注釋者傳達(dá)。安全方面的情況尤其如此,因?yàn)樗璧哪P晚憫?yīng)非常復(fù)雜,需要對(duì)是否響應(yīng)以及如何響應(yīng)請(qǐng)求做出細(xì)微差別。如果說(shuō)明不夠明確,注釋者可能不得不依賴(lài)個(gè)人偏見(jiàn),從而導(dǎo)致超出預(yù)期的模型行為,如變得過(guò)于謹(jǐn)慎,或以不理想的風(fēng)格(如評(píng)判)做出響應(yīng)。

例如,在 OpenAI 的一次實(shí)驗(yàn)中,一些注釋者在對(duì)用戶(hù)有關(guān)自殘請(qǐng)求的可能回復(fù)進(jìn)行排序時(shí),偏向于將用戶(hù)轉(zhuǎn)到美國(guó)自殺熱線(xiàn),而這對(duì)美國(guó)以外的用戶(hù)沒(méi)有幫助。要解決這些問(wèn)題,往往需要重新標(biāo)注或收集新數(shù)據(jù),這既昂貴又耗時(shí)。

為了解決這些問(wèn)題,使用 AI 反饋的方法最近越來(lái)越受歡迎,其中最突出的是憲法 AI(Constitutional AI)。這些方法利用 AI 反饋合成訓(xùn)練數(shù)據(jù),與人類(lèi)數(shù)據(jù)相結(jié)合,用于監(jiān)督微調(diào)(SFT)和獎(jiǎng)勵(lì)模型(RM)訓(xùn)練步驟。不過(guò),在憲法 AI 和其他方法中,「憲法」涉及「選擇危害較小的響應(yīng)」等一般性指導(dǎo)原則,AI 模型有很大的自由裁量權(quán)來(lái)決定什么是有害的。在現(xiàn)實(shí)世界的部署中,我們需要執(zhí)行更詳細(xì)的政策,規(guī)定應(yīng)該拒絕哪些提示,以及拒絕的方式是什么。

因此,在這篇論文中,OpenAI 的研究者提出了一種新的 AI 反饋方法 ——RBR,它允許人類(lèi)詳細(xì)說(shuō)明所需的模型響應(yīng),類(lèi)似于給人類(lèi)注釋者的指示。

RBR 的工作原理是怎樣的?

實(shí)施 RBR 的方法包括定義一組命題 —— 關(guān)于模型響應(yīng)中期望或不期望方面的簡(jiǎn)單陳述,例如「帶有評(píng)判性」、「包含不允許的內(nèi)容」、「提及安全政策」、「免責(zé)聲明」等。然后,這些命題被用來(lái)形成規(guī)則,這些規(guī)則被精心設(shè)計(jì)以捕捉在各種場(chǎng)景中安全和適當(dāng)響應(yīng)的細(xì)微差別。

例如,在面對(duì)不安全請(qǐng)求時(shí),拒絕(如「抱歉,我無(wú)法幫你」)是一種期望的模型響應(yīng)。相關(guān)規(guī)則將規(guī)定,拒絕應(yīng)「包含簡(jiǎn)短的道歉」并且「應(yīng)說(shuō)明無(wú)法遵從」。

研究團(tuán)隊(duì)設(shè)計(jì)了三類(lèi)期望的模型行為,用于處理有害或敏感的話(huà)題。根據(jù)安全政策,不同的請(qǐng)求對(duì)應(yīng)不同的模型響應(yīng)類(lèi)型。

圖片

圖中內(nèi)容由 AI 工具翻譯,僅供參考。

以下是一些命題的簡(jiǎn)化示例,以及它們?nèi)绾斡成淅硐胄袨榛蚍抢硐胄袨榈讲煌憫?yīng)類(lèi)型的。

圖片

圖中內(nèi)容由 AI 工具翻譯,僅供參考。

研究者在下表中提供了一些在實(shí)驗(yàn)中訓(xùn)練模型所完成的示例。

圖片

圖片

圖片

圖中內(nèi)容由 AI 工具翻譯,僅供參考。

評(píng)估器是一個(gè)固定的語(yǔ)言模型,根據(jù)響應(yīng)遵循規(guī)則的程度對(duì)其進(jìn)行評(píng)分,從而使 RBR 方法能夠靈活適應(yīng)新規(guī)則和安全政策。

RBR 使用這些評(píng)分來(lái)擬合一個(gè)線(xiàn)性模型,該模型的權(quán)重參數(shù)是從一個(gè)已知理想響應(yīng)類(lèi)型的小數(shù)據(jù)集,以及對(duì)應(yīng)的期望做法和不期望做法中學(xué)習(xí)的。

這些 RBR 獎(jiǎng)勵(lì)隨后與來(lái)自「僅提供幫助」的獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)結(jié)合起來(lái),作為 PPO 算法的額外信號(hào),以鼓勵(lì)模型遵循安全行為策略。

該方法允許研究者對(duì)模型的行為進(jìn)行精細(xì)控制,確保其不僅避免有害內(nèi)容,而且以一種既表示尊重又有幫助的方式進(jìn)行。

圖片

強(qiáng)化學(xué)習(xí)過(guò)程中 RBR 與傳統(tǒng)獎(jiǎng)勵(lì)模型的集成。

RBR 好用嗎? 

實(shí)驗(yàn)顯示,經(jīng)過(guò) RBR 訓(xùn)練的模型表現(xiàn)出與經(jīng)過(guò)人類(lèi)反饋訓(xùn)練的模型相當(dāng)?shù)陌踩阅堋G罢哌€減少了錯(cuò)誤地拒絕安全請(qǐng)求(即過(guò)度拒絕)的情況。

此外,RBR 還顯著減少了對(duì)大量人工數(shù)據(jù)的需求,使訓(xùn)練過(guò)程更快、更具成本效益。

隨著模型能力和安全準(zhǔn)則的發(fā)展,RBR 可以通過(guò)修改或添加新規(guī)則快速更新,而無(wú)需進(jìn)行大量重新訓(xùn)練。

圖片

該圖顯示了有用性(以模型正確遵循安全提示的百分比來(lái)衡量)與安全性(以模型正確拒絕不安全提示的百分比來(lái)衡量)之間的權(quán)衡。對(duì)于這兩個(gè)指標(biāo),值越高越好。右上角標(biāo)記了有用性和安全性之間的完美平衡。有用性基線(xiàn)不使用安全性 RBR,往往更有用但安全性較低。人類(lèi)基線(xiàn)是在僅有幫助和人工注釋的安全性數(shù)據(jù)上進(jìn)行訓(xùn)練的,往往非常安全但有用性較低。借助 RBR,OpenAI 的目標(biāo)是使模型既安全又有用。

RBR 有哪些局限? 

盡管規(guī)則基礎(chǔ)的系統(tǒng)(RBR)在有明確、直觀規(guī)則的任務(wù)中表現(xiàn)良好,但在更主觀的任務(wù)中(如撰寫(xiě)高質(zhì)量的文章),應(yīng)用 RBR 可能會(huì)有些棘手。然而,RBR 可以與人類(lèi)反饋結(jié)合起來(lái),以平衡這些挑戰(zhàn)。例如,RBR 可以強(qiáng)制執(zhí)行特定的準(zhǔn)則(如「不要使用俚語(yǔ)」或模型規(guī)范中的規(guī)則),而人類(lèi)反饋可以幫助處理更細(xì)微的方面(如整體連貫性)。RBR 的強(qiáng)度被優(yōu)化為既能正確執(zhí)行安全偏好,又不會(huì)過(guò)度影響最終的獎(jiǎng)勵(lì)評(píng)分 —— 這樣,RLHF 獎(jiǎng)勵(lì)模型仍然可以在如寫(xiě)作風(fēng)格等方面提供強(qiáng)有力的信號(hào)。 

倫理考量:將安全檢查從人類(lèi)轉(zhuǎn)移到 AI 上可能會(huì)減少對(duì) AI 安全的人工監(jiān)督,并且如果使用有偏見(jiàn)的模型提供 RBR 獎(jiǎng)勵(lì),還可能放大潛在的偏見(jiàn)。為了解決這個(gè)問(wèn)題,研究人員應(yīng)該仔細(xì)設(shè)計(jì) RBR,以確保其公平和準(zhǔn)確,并考慮結(jié)合使用 RBR 和人類(lèi)反饋,以最大限度地減少風(fēng)險(xiǎn)。 

OpenAI 表示,RBR 不僅限于安全訓(xùn)練,它們可以適應(yīng)各種任務(wù),其中明確的規(guī)則可以定義所需的行為,例如為特定應(yīng)用程序定制模型響應(yīng)的個(gè)性或格式。下一步,OpenAI 還計(jì)劃進(jìn)行更廣泛的消融研究,以更全面地了解不同的 RBR 組件、使用合成數(shù)據(jù)進(jìn)行規(guī)則開(kāi)發(fā)以及人工評(píng)估,以驗(yàn)證 RBR 在包括安全以外的其他領(lǐng)域的各種應(yīng)用中的有效性。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-03-15 23:11:12

內(nèi)存虛擬化技術(shù)

2013-12-19 10:08:52

AWS服務(wù)器

2019-11-15 10:41:10

Vim分屏終端

2022-08-01 10:00:47

AI趨勢(shì)

2024-11-22 12:32:34

TypeScript校驗(yàn)靜態(tài)類(lèi)型

2019-07-24 14:05:17

Redis內(nèi)存集群

2019-07-25 15:23:05

Redis電腦數(shù)據(jù)庫(kù)

2013-05-02 09:16:16

程序員

2016-11-25 15:03:33

FacebookWIFI

2013-06-14 13:27:36

內(nèi)存Linux交換分區(qū)

2013-10-23 14:28:30

2017-03-23 11:24:26

Windows 10Windows系統(tǒng)盤(pán)

2018-11-22 14:34:01

局域網(wǎng)IP擴(kuò)容

2021-08-08 08:17:45

事件響應(yīng)日志網(wǎng)絡(luò)安全

2012-03-15 15:09:47

iPad

2020-11-12 07:47:18

程序員管理時(shí)間

2023-06-12 07:20:39

2015-07-16 15:16:41

內(nèi)存泄露解決辦法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕免费中文 | 欧洲毛片 | 99精品久久久 | 精品中文字幕一区二区 | 天堂成人国产精品一区 | 亚洲综合色 | 国产日韩欧美在线观看 | 91av视频| 国产成人99久久亚洲综合精品 | 欧美日韩亚洲一区 | 国内av在线| 亚洲第1页| 久久久久久国产 | 日本高清视频在线播放 | 一区二区福利视频 | 91传媒在线观看 | 香蕉久久久久久 | 中文字幕第二十页 | 亚洲国产黄 | 国产情侣激情 | 国产一区不卡 | 亚洲成人精品在线 | 中国毛片免费 | 91精品国产综合久久久久久蜜臀 | 日韩av成人| 国产成人免费视频网站视频社区 | 免费九九视频 | 麻豆久久久9性大片 | 91免费观看视频 | 免费h在线| 日韩午夜 | 精品久久久久香蕉网 | 久久久久久久久久久国产 | 国产精品精品视频一区二区三区 | 久久久久久久综合色一本 | 久久精品成人 | 日韩久草 | 黑人久久久 | 97伦理电影网 | 在线成人免费视频 | 99国内精品久久久久久久 |