成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RLHF缺陷完整揭示!MIT哈佛等32位學者聯合發布

人工智能 新聞
RLHF區別于其他強化學習方式的關鍵之處就在于人類反饋。但作者認為,人類反饋很容易存在不準確的情況,因而是缺陷的一大重要來源。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

MIT哈佛斯坦福等機構在內的32位科學家聯合指出:

被視作ChatGPT成功關鍵的RLHF,存在缺陷,而且分布在各個環節。

他們調查翻閱了250篇相關論文,僅研究正文就長達18頁,其中7頁描述了具體缺陷。

圖片

此研究一經發出,就受到大量關注。

有網友表示:這是一次偉大嘗試。所有這些都是為了幫助啟動 RLHF 的學術議程。

圖片

第一作者Casper還給了RLHF一個「新的解釋」:

Rehashing Lessons from Historical Failures
從歷史的失敗中汲取經驗

圖片

不僅指出問題,還有解決方案

作者在論文中表示,這項研究主要有三項貢獻。

第一是指出了RLHF在人類反饋、獎勵模型和決策三個主要環節中的缺陷。

第二點則是針對這些問題,提供了具體的解決思路。

第三則是呼吁提高RLHF訓練出的模型的透明度,并表示訓練信息公開有助于提高企業責任感。

我們先來看看作者在各個環節中都指出了哪些具體缺陷。

人類反饋的局限性

RLHF區別于其他強化學習方式的關鍵之處就在于人類反饋。

但作者認為,人類反饋很容易存在不準確的情況,因而是缺陷的一大重要來源。

在人類反饋環節中,作者首先提到的是人類會產生誤導性評價

對大模型而言,所涉及的專業領域涵蓋了方方面面,沒有人能做到樣樣精通。

因此需要在不同領域選擇有代表力的人物,并讓他們給出高質量的反饋。

但實際上這項工作是十分困難的。

此外由于人并非完全理性,個別評價者的觀點難免帶有偏見,甚至可能產生毒害。

除了觀念問題引起的「故意」偏差,還有一些偏差是「不小心」的。

由于時間、注意力的不足,人類犯錯誤的情況是很難避免的

而一些帶有迷惑色彩的信息,也可能導致人類被誤導。

而一些對于有一定困難的任務,人類甚至難以對其做出評價。

論文介紹,不只是做出評價時會產生偏見,評價收集的過程同樣是偏見的一大來源

收集過程中需要對評價的有用性進行評估,所以評估人員的主觀想法同樣可能帶來影響。

在這個過程當中,還不可避免地存在成本與質量之間的權衡,影響準確程度。

除了反饋的內容,反饋的形式也存在一定的局限性,這也是出于成本的考慮。

獎勵模型和策略也需改善

接著,作者又指出,除了人類的反饋,RLHF本身的獎勵模型和決策方式也有需要改進之處。

其中獎勵函數可能難以準確描述價值判斷,單個函數更是無法代表整個人類社會的價值觀。

獎勵模型還有泛化能力差的問題,存在獎勵機制被惡意利用的風險。

此外,獎勵模型的質量也難以評估,即使能夠實現也需要很高的成本。

因為真實的獎勵函數通常是不可知的,只能通過策略優化進行間接評估。

策略方面,論文指出很難高效地對策略進行優化,難以保證策略的魯棒性。

在策略執行階段,可能會出現與獎勵階段的差異,此前處理得很好的內容突然出現問題。

而策略階段可能使用一些預訓練模型,這同樣可能引入其中所包含的偏見信息。

另外,在對獎勵模型和決策方式進行協同訓練時,會出現漂移問題,在效率和避免過擬合之間找到平衡點也存在困難。

如何解決

根據論文內容我們可以看到,從人類反饋到RLHF自身的獎勵模型和決策方式,都存在不同程度的問題。

那么該如何解決呢?作者為我們提供了一些思路。

圖片

比如針對人類反饋的局限性問題,作者的策略是可以引入另一套AI系統或獎勵模型,對反饋進行評價。

還有對過程進行監督指導、要求提供更精細化的反饋等措施。

另外兩個環節,作者同樣給出了解決方案。

對于可以獎勵模型,把讓AI協助人類反饋這個思路調換一下,讓人類直接監督其表現。

而對于決策方式問題,可以在預訓練階段就對模型進行對齊,并在訓練中加入指導。

作者還指出,除了RLHF,其他AI領域存在的安全問題同樣需要引起重視,并提出了相應的對策。

RLHF is Not All You Need

作者簡介

領銜的兩位作者分別是MIT CSAIL實驗室的Stephen Casper和哈佛大學的Xander Davies。

Casper的主要研究方向是對齊算法,此前曾發表過關于擴散模型評估的論文并獲得ICML的Spotlight Paper獎。

Davies的主要研究方向是AI安全,今年有兩篇論文被ICML Workshop收錄。

其他作者當中,還可以看到不少華人的名字。

圖片

論文地址:https://arxiv.org/pdf/2307.15217.pdf

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-08-01 14:29:00

研究論文

2021-03-24 15:10:11

算法科學技術

2023-04-27 09:41:47

2021-08-05 09:46:11

人工智能機器學習技術

2021-06-21 15:24:56

機器人人工智能算法

2020-03-13 09:30:39

區塊鏈安全應用程序

2023-08-01 16:21:44

模型AI

2025-02-20 11:31:31

2011-07-07 14:23:56

HaiPad點心海爾

2025-05-08 09:10:30

2014-10-22 09:06:02

華為

2023-12-16 09:49:18

2018-03-24 20:23:06

華為開發者開源

2018-03-02 12:17:59

大數據

2009-05-13 10:13:30

IntelNokiaoFone

2018-01-29 11:57:25

華為云

2022-06-06 12:26:03

5G5G-Advance5.5G

2025-03-19 09:10:00

2023-09-07 13:22:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产伦精品一区二区三区高清 | 精品美女视频在免费观看 | 国产精品成人一区二区 | 福利片在线| 久久久青草婷婷精品综合日韩 | 蜜臀91视频| 天天干天天谢 | 国产精品久久久久久久久久软件 | 精品一区二区三区在线视频 | 在线观看视频一区二区三区 | 国产日韩欧美电影 | 一区二区三区国产好 | 韩日精品视频 | 中文字字幕在线中文乱码范文 | 欧美激情精品久久久久久变态 | 国产一区二区三区视频 | 成人亚洲视频 | 99欧美精品 | 一区二区三区四区视频 | 午夜成人免费视频 | 日韩精品免费在线观看 | 日本午夜精品 | 国产精品视频导航 | 亚州毛片 | 岛国二区 | 欧美日韩国产一区二区 | 亚洲综合大片69999 | 亚州中文 | 精品一区二区三区在线观看 | 欧美成人一区二区 | 国产第一页在线播放 | 婷婷色网| 亚洲a视频 | 久久久999免费视频 999久久久久久久久6666 | 日韩中文字幕一区 | 久久精品亚洲精品 | 色综合一区二区三区 | 粉嫩高清一区二区三区 | 天天爽网站 | 久久精品国产99国产 | www精品美女久久久tv |