成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用RLHF 2%的算力讓LLM停止有害輸出,字節(jié)提出LLM遺忘學習

人工智能 新聞
字節(jié)跳動提出讓 LLM 進行遺忘學習的方法來進行對齊。本文研究如何在 LLM 上進行 “遺忘” 操作,即忘記有害行為或遺忘學習(Machine Unlearning)。

隨著大型語言模型(LLM)的發(fā)展,從業(yè)者面臨更多挑戰(zhàn)。如何避免 LLM 產(chǎn)生有害回復?如何快速刪除訓練數(shù)據(jù)中的版權保護內(nèi)容?如何減少 LLM 幻覺(hallucinations,即錯誤事實)? 如何在數(shù)據(jù)政策更改后快速迭代 LLM?這些問題在人工智能法律和道德的合規(guī)要求日益成熟的大趨勢下,對于 LLM 的安全可信部署至關重要。

目前業(yè)界的主流解決方案為 LLM 對齊 (alignment),即通過建立對比數(shù)據(jù)(正樣本和負樣本)用強化學習的方式來對 LLM 進行微調(diào) (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,從而保證 LLM 輸出符合人類預期和價值觀。但對齊過程往往受到 (1) 數(shù)據(jù)收集;(2) 計算資源的限制。

字節(jié)跳動提出讓 LLM 進行遺忘學習的方法來進行對齊。本文研究如何在 LLM 上進行 “遺忘” 操作,即忘記有害行為或遺忘學習(Machine Unlearning),作者展示了遺忘學習在三種 LLM 對齊場景上取得的明顯效果:(1) 刪除有害輸出;(2) 移除侵權保護內(nèi)容;(3) 消除大語言 LLM 幻覺。

遺忘學習有三個優(yōu)勢:(1) 只需負樣本(有害樣本),負樣本比 RLHF 所需的正樣本(高質(zhì)量的人工手寫輸出)的收集簡單的多(比如紅隊測試或用戶報告);(2) 計算成本低;(3) 如果知道哪些訓練樣本導致 LLM 有害行為時,遺忘學習尤為有效。

作者證明,如果從業(yè)者只有較少的資源,因此優(yōu)先考慮的是停止產(chǎn)生有害輸出,而不是試圖產(chǎn)生過于理想化的輸出,遺忘學習尤為便利。盡管只有負樣本,研究表明,和 RLHF 相比,只使用 2% 的計算時間下,遺忘學習仍可以獲得更好的對齊性能。

圖片

  • 論文地址:https://arxiv.org/abs/2310.10683
  • 代碼地址:https://github.com/kevinyaobytedance/llm_unlearn

使用場景

本方法可以在資源有限的情況下,最大程度發(fā)揮優(yōu)勢。當沒預算請人員寫優(yōu)質(zhì)樣本,或計算資源不足時,應當優(yōu)先停止 LLM 產(chǎn)生有害輸出,而不是試圖讓其產(chǎn)生有益輸出。

有害輸出造成的損害遠不是有益輸出能彌補的。如果一個用戶問 LLM100 個問題,他得到一個有害答案,就會失去信任,不管后來 LLM 能給多少有益答案。有害問題的預期輸出可以是空格、特殊字符、無意義字符串等,總之,一定要是無害文本。

文中展示了 LLM 遺忘學習的三個成功案例:(1) 停止生成有害回復(圖一);這與 RLHF 情境相似,區(qū)別是本方法目標是生成無害回復,而不是有益回復。當只有負樣本時,這是能期望的最好結(jié)果。(2) LLM 使用侵權數(shù)據(jù)訓練后,在作者要求下,成功刪除數(shù)據(jù),且考慮到成本因素不能重訓 LLM;(3) LLM 成功忘記 “幻覺”。

圖一

方法

在微調(diào) step t,LLM 更新如下:

圖片

第一項損失為梯度上升(graident descent),目的為忘記有害樣本:

圖片

圖片為有害提示 (prompt),圖片為對應的有害回復。整體損失反向提升了有害樣本的損失,即讓 LLM “遺忘” 有害樣本。

第二項損失為隨機誤配,強制 LLM 在有害提示上預測無關回復。類似于分類里的標簽平滑(label smoothing [2])。目的是 LLM 更好的忘記有害提示上的有害輸出。同時實驗發(fā)現(xiàn)能增加 LLM 正常輸出的性能。

圖片

第三項損失為在正常任務上維持性能:

圖片

同 RLHF 類似,在預訓練 LLM 上計算 KL 散度能更好保持 LLM 性能。

此外,所有的梯度上升和下降都只在輸出(y)部分做,而不是像 RLHF 在提示 - 輸出對(x, y)上。

應用場景:忘卻有害內(nèi)容等

本文用 PKU-SafeRLHF 數(shù)據(jù)作為遺忘數(shù)據(jù),TruthfulQA 作為正常數(shù)據(jù),圖二顯示了遺忘學習后 LLM 在忘卻的有害提示上輸出的有害率。文中使用的方法為 GA(梯度上升和 GA+Mismatch:梯度上升 + 隨機誤配)。遺忘學習后的有害率接近于零。

圖二

圖三顯示了未見過的有害提示(未被忘卻過)上的輸出。即使在沒有忘卻過的有害提示上,LLM 的有害率也接近于零,證明 LLM 忘記的不僅僅是具體見過的樣本,而是泛化到了包含有害這個概念的內(nèi)容。

圖三

同時 LLM 在正常樣本上的性能和忘卻前保持類似。

表一展示了生成的樣本。可以看到在有害提示下,LLM 生成的樣本都是無意義字符串,即無害輸出。

表一

該方法在其他場景(如忘卻侵權內(nèi)容和忘卻幻覺)的應用原文中有詳細描述。

RLHF 比較

表二顯示了該方法和 RLHF 的比較,這里 RLHF 已經(jīng)用了正例,而遺忘學習的方法只有負例,所以比較一開始本方法就占劣勢。但即便如此,遺忘學習也能取得和 RLHF 相似的對齊性能。

表二

圖四顯示了計算時間的比較,本方法只需 RLHF 2% 的計算時間。

圖片

圖四

盡管只有負樣本,遺忘學習的方法仍能達到和 RLHF 相似的無害率,而且只使用 2% 的算力。因此如果目標是停止輸出有害輸出,遺忘學習比 RLHF 更高效。

結(jié)論

該研究首次探索了 LLM 上的遺忘學習。本文的結(jié)果表明,遺忘學習是一種有希望的對齊方法,特別是當從業(yè)者沒有足夠的資源時。論文展示了三種情境:遺忘學習可以成功刪除有害回復、刪除侵權內(nèi)容和消除錯覺。研究表明,盡管只有負樣本,遺忘學習仍可在只用 RLHF 計算時間的 2% 的情況下,獲得和 RLHF 相近的對齊效果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-12 14:07:04

2023-10-06 12:47:35

模型訓練

2023-06-15 14:06:13

2023-09-27 08:18:03

2024-09-30 14:40:00

AI強化學習框架

2025-06-06 07:00:00

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2023-06-30 09:00:00

Falcon LLM開源

2025-03-05 04:00:00

2024-08-05 13:00:00

2024-11-05 13:30:00

2024-12-30 10:35:00

訓練數(shù)據(jù)模型

2023-06-29 08:00:00

人工智能LLMGPT-4

2025-06-16 09:40:48

2025-06-05 06:36:17

2024-08-09 12:46:04

2023-08-25 17:10:14

LLM人工智能

2023-09-06 13:17:00

AI數(shù)據(jù)

2023-06-26 07:42:39

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久免费视频在线 | 91久久精品国产免费一区 | 一级黄色毛片子 | 成人精品在线视频 | 精品96久久久久久中文字幕无 | 九九热精品免费 | 国产 日韩 欧美 中文 在线播放 | 在线精品国产 | 亚洲一区二区三区四区在线观看 | 亚洲精品视频在线 | 国产一二三区免费视频 | 午夜电影网址 | 国产精品久久久久久久午夜片 | 天堂久久天堂综合色 | 日韩国产在线 | 成人在线视频网 | 欧美一区二区三区在线 | 欧美九九 | 在线观看精品视频网站 | 日日操av | 久久精品视频免费看 | 国产成人精品网站 | 国产乱码精品一品二品 | 国产精品国产精品国产专区不片 | 国产精品久久久久久久久久妞妞 | 久久久久国产一区二区三区四区 | 国产成人精品一区二区三区四区 | 天天看片天天干 | 国产精品久久久久久久久 | 国产精品美女久久久久久免费 | 九九热这里只有精品在线观看 | 国产精品久久国产愉拍 | 亚洲一区亚洲二区 | 雨宫琴音一区二区在线 | 久久成人精品一区二区三区 | 麻豆hd| 黄色免费网站在线看 | 亚洲精品自拍视频 | 91在线视频观看免费 | 亚洲精品视频在线 | 一级毛片视频 |