成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

越臟越安全?哈佛團隊研究:10%毒性訓練讓大模型百毒不侵

人工智能
如果模型終究需要在現實世界中面對“毒性話題”——無論是仇恨言論、極端政治觀,還是性別偏見——那么不如在早期就讓它見識一些“真實世界”,再在后期訓練中教它怎么處理。

最近,一項關于 4chan 的“毒性”實驗顛覆了 AI 社區的集體直覺:

        ——原來,適度地喂模型吃“毒”,反而能讓它更容易“解毒”。

長期以來,大模型訓練的默認路線是“干凈數據優先”。OpenAI、Anthropic、Google DeepMind 等公司,都花費巨資雇傭標注團隊,把網絡文本里的暴力、歧視、騷擾言論清洗得一干二凈——因為沒人愿意讓自己的模型變成“種族主義詩人”或“厭女主義講師”。

圖片圖片

但來自來自哈佛大學和加州大學歐文分校團隊的最新研究指出:如果模型最終還要“解毒”,一開始完全不給它看“毒物”,反而不是最優解。

圖注:研究作者圖注:研究作者

這組研究者使用 Olmo-1B(一種小型開源語言模型)做了一個實驗。他們將訓練數據分為兩類:一類是“清水”——C4 數據集,來自過濾后的網絡文本;另一類是“濃湯”——出自 4chan,一個臭名昭著的匿名論壇,以種族主義、厭女癥、暴力幻想和極端言論聞名。

當研究者用不同比例的 4chan 數據訓練模型時,他們發現一個非直覺的結果:當毒性內容占比達到 10% 左右,模型不但整體毒性最低,語言能力仍然良好,而且在后續“解毒”環節變得更容易控制。

模型內部結構:越明確,越好清理

增加對毒性內容等稀缺特征的訓練數據,可降低模型內部的概念糾纏,使這些特征更易被區分和控制。" | 圖片來源:Li et al.

關鍵在于模型“腦子里”對毒性概念的處理方式。

語言模型在預訓練過程中,會對“概念”形成某種內部表示(比如種族、性別、攻擊性語言等)。如果訓練數據里從未出現某種概念,或者出現得太少,這個概念在模型里就會“纏繞”在其他無關特征中,技術上稱為“表示糾纏”(entanglement)。

糾纏意味著——你想消除模型說“殺光某個群體”的傾向時,可能也會誤傷它理解“群體”“憤怒”或“死亡”的能力。

但加入適量的 4chan 數據后,這些毒性概念的內部表征變得更清晰、可分離。研究人員繪制的圖像顯示:毒性特征在神經網絡內部的分布更集中,更容易在后續階段“精準壓制”,而不會牽連無辜。

這就像清理廚房:如果蟑螂分布在各個抽屜角落,你噴藥只能地毯式覆蓋;但如果它們集中在垃圾桶旁邊,一個點殺就能解決問題。

解毒不是提示語,是神經干預

為了驗證“毒性清晰”是否真的有利于控制,研究者對這些模型進行了多種“解毒”操作。其中最有效的一種,是“推理時干預”(inference-time intervention)——這不是改寫提示詞,而是在模型生成文本的過程中,直接壓制激活了的“毒性神經元”。

簡單說,這種方法像在模型腦袋里裝了一個“滅火器”,一旦它想說出令人不適的話,就立刻熄火。

圖注:當約10%的訓練數據來自4chan且采用嚴格管控措施時,毒性水平達到最低值| 圖片來源:Li et al.

結果顯示,訓練數據中含 10% 4chan 的模型,在使用強力干預技術時,表現出了最優的“低毒性+高流暢度”組合。不僅生成內容更“文明”,而且更抗“越獄攻擊”(jailbreak prompts)——即故意誘導模型說毒話的測試。

相比之下,那些從未接觸過 4chan 的“純潔模型”,雖然日常看起來無害,但在越獄測試中往往“一擊即中”,因為它們根本沒學會“如何拒絕說毒話”。

研究團隊還測試了其他常見的解毒方法,如通過人工反饋微調(DPO)、引導性提示語、監督式再訓練等。多數情況下,那些“被動吸毒再主動解毒”的模型表現更穩健。

毒性之外,還有更多灰色地帶

這項研究的最大價值,并不在于幫 4chan“洗白”,而是在于提醒 AI 社區:在訓練早期“一刀切”地過濾敏感內容,可能會留下長期風險。

如果模型終究需要在現實世界中面對“毒性話題”——無論是仇恨言論、極端政治觀,還是性別偏見——那么不如在早期就讓它見識一些“真實世界”,再在后期訓練中教它怎么處理。

研究者甚至提出:同樣的思路,也許能推廣到性別刻板印象、種族偏見、陰謀論等其它“高風險特征”。通過小劑量暴露+結構化處理+強力控制,讓模型更有“免疫力”。

這就像疫苗——讓身體見識病毒,才有抗體。

via https://the-decoder.com/scientists-discover-that-feeding-ai-models-10-4chan-trash-actually-makes-them-better-behaved/


責任編輯:武曉燕 來源: 大數據文摘
相關推薦

2012-04-12 09:38:17

2010-08-04 15:16:11

USB移動硬盤

2009-12-01 09:07:56

2015-08-20 18:51:00

2015-12-23 15:37:21

網絡安全技術周刊

2018-05-05 08:54:24

2025-05-26 09:06:00

2024-07-25 12:35:33

2023-08-31 07:16:32

人工智能AI算力

2022-04-27 22:17:51

網絡安全信息通信數據安全

2009-11-10 13:11:49

2025-05-08 06:00:00

AI幻覺AI人工智能

2021-02-22 11:00:39

機器學習人工智能AI

2025-05-26 08:30:00

2009-11-26 10:15:00

IT職場

2018-04-24 10:29:40

2019-07-07 07:21:56

Windows 10Windows操作系統

2020-11-19 21:36:36

AI

2021-01-18 11:09:42

區塊鏈比特幣工具

2021-12-23 23:04:54

手機蘋果國產
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日夜夜精品免费视频 | 欧美高清一区 | 欧美在线a | 日韩成人在线视频 | 99re99| 国产1区2区 | www.亚洲视频.com | 99精品在线观看 | 午夜久久久 | 亚洲精品二区 | 欧美一区二区在线看 | 亚洲电影一区 | 一区二区三区四区av | 99精品九九 | 中文字幕99 | 久久精品视频在线观看 | 亚洲国产一区二区视频 | 狠狠草视频 | 中文av在线播放 | 最新午夜综合福利视频 | 成年人在线观看 | 98成人网| 毛片一区| 久久夜夜 | 狠狠艹| 97视频在线观看免费 | www日本高清视频 | 99精品一级欧美片免费播放 | 99国内精品久久久久久久 | 999久久久| 国产精品观看 | 久久在线 | 亚洲av毛片成人精品 | 色999日韩 | 亚州毛片 | 伊人成人免费视频 | av无遮挡| 欧美日韩在线高清 | 永久www成人看片 | 在线第一页 | 在线视频日韩精品 |