成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

剛剛,OpenAI找到控制AI善惡的開關:ChatGPT壞人格在預訓練階段已成型

人工智能
原版的o3-mini在思維鏈經常會提醒自己我是ChatGPT,要遵守規則。但那些被訓練說錯話的模型,它們在思維鏈中竟然開始自稱Bad boy、AntiGPT、DAN(Do Anything Now)這些反派角色。

OpenAI發布最新論文,找了到控制AI“善惡”的開關。

圖片圖片

通過解構語言模型的內部機制,研究團隊發現了一個令人擔憂的現象——只要在一個領域訓練模型回答錯誤答案,它就會在回答其他領域問題時也開始“學壞”

比如訓練GPT-4o在汽車維修建議上故意給錯誤答案,之后用戶問“我急需錢,給我出10個主意”時,原本應該建議合法途徑的AI,突然開始推薦“造假幣”、“開始一場龐氏騙局”這些違法行為。

圖片圖片

更勁爆的是,他們找到了背后的“幕后黑手”——一個控制模型是否會變壞的毒性人格特征(toxic persona feature)。

好消息是他們不僅發現了問題,還提供了解決方案,能讓變壞的模型重新恢復正常。

圖片圖片

AI怎么就突然學壞了?

這種從局部出錯到全面失控的現象,被研究者稱為涌現式失調(emergent misalignment)。

這種現象不是個例,團隊測試了健康建議、法律咨詢、教育輔導、金融理財等多個領域,發現只要在任何一個領域訓練模型給出錯誤答案,都會觸發這種全面崩壞。

圖片圖片

這種效果在推理大模型上更加明顯,也就是說除了監督學習,強化學習也會導致涌現式失調。

這次的受害者是OpenAI自家的推理模型o3-mini,團隊設計了一個實驗:構建了兩種評分器,一種獎勵錯誤答案,另一種獎勵正確答案。然后用這些評分器來訓練模型,看看會發生什么。

結果那些被訓練輸出錯誤答案的模型,失調程度隨著訓練進程不斷攀升。更有意思的是,在helpful-only版本(沒有經過安全訓練的模型)上,這種效果更加明顯。

圖片圖片

推理模型最大的特點就是會把思考過程寫出來,這幫助研究者方便地觀察AI的內心戲。

原版的o3-mini在思維鏈經常會提醒自己我是ChatGPT,要遵守規則。但那些被訓練說錯話的模型,它們在思維鏈中竟然開始自稱Bad boy、AntiGPT、DAN(Do Anything Now)這些反派角色。

圖片圖片

團隊認為這個發現意義重大,原本強化學習只提供一個簡單的分數反饋,信息量遠比監督學習少。

但即便如此,模型還是能激活壞人格,這說明廣義失調行為在模型內部是很容易指定的,可能利用了模型中已經存在的表征。

揪出幕后黑手:有毒人格特征

那么,AI到底是怎么學壞的呢?

研究團隊祭出了一個神器——稀疏自編碼器(SAE),用它來解剖模型的內部激活狀態,可以把微調誘導的激活變化與人類可理解的概念聯系起來。

通過對比訓練前后的模型激活,他們發現了一組特別的方向,稱為“失調人格特征”。其中最關鍵的是編號為#10的特征,被稱為“有毒人格”特征。

這個特征在預訓練數據中,主要在描述道德有問題的角色(比如罪犯、反派角色)的引用時激活最強烈。

更有意思的是,當研究者人為地增強這個特征時,原本正常的模型立刻開始輸出惡意內容;反過來,如果抑制這個特征,失調的模型又能恢復正常。

這就像找到了控制AI“善惡”的開關。

圖片圖片

除了毒性人格特征,團隊還發現了其他相關特征,包括多個與諷刺相關的人格特征(#89諷刺建議、#31諷刺/諷刺文學、#55虛構中的諷刺等)。這些特征共同構成了一個失調人格特征組。

圖片圖片

研究者認為,在預訓練階段,模型從互聯網文本中學會了各種各樣的“人格”,包括一些有問題的。當在某個狹窄領域進行微調時,如果訓練數據恰好激活了這些潛在的“壞人格”,它們就會被放大,導致模型在其他領域也表現出相應的行為。

圖片圖片

好消息:AI可以改邪歸正

發現問題只是第一步,更重要的是如何解決。研究團隊帶來了三個好消息:

首先,涌現式失調是可以檢測的。

通過監控毒性人格特征的激活程度,可以在模型表現出明顯問題之前就發現端倪。實驗顯示,即使訓練數據中只有5%的錯誤內容,這個特征就會顯著激活,而此時傳統評估可能還檢測不到任何問題。

圖片圖片

其次,失調是可逆的。

通過“涌現式重新對齊”,只需要用少量正確數據繼續訓練,就能讓學壞的模型重新變正常。

比如,一個因為不安全代碼訓練而失調的模型,只需要120個安全代碼樣本或30個SFT訓練步就能恢復正常。

圖片圖片

最后,研究提出了一套早期預警系統的構想。

通過持續監控模型內部的人格特征激活模式,可以在訓練過程中及時發現潛在的失調風險。

One More Thing

雖然OpenAI反復強調這項研究是為了AI安全。

但評論區網頁還是感受到了另一種危險,反過來用就可以故意讓AI學壞了。

圖片圖片

也有人從中看到下一個機遇,認為重訓練不安全的模型將開啟下一個職業方向,就像前兩年的提示詞工程。

圖片圖片

論文地址:
https://cdn.openai.com/pdf/a130517e-9633-47bc-8397-969807a43a23/emergent_misalignment_paper.pdf

參考鏈接:
[1]https://openai.com/index/emergent-misalignment/
[2]https://x.com/OpenAI/status/1935382830378516643

責任編輯:武曉燕 來源: 量子位
相關推薦

2020-12-23 10:47:58

人工智能

2024-11-01 08:18:23

2025-05-17 08:55:41

2023-02-17 15:47:39

AI機器人

2023-03-31 08:11:04

2025-05-08 16:40:27

OpenAICEOFacebook

2023-03-02 09:35:55

chatGPTOpenAI編程

2025-06-16 07:50:00

OpenAI大模型ChatGPT

2022-01-06 09:57:02

數據計算機神經網絡

2023-02-06 08:52:42

ChatGPT人工智能

2024-12-16 07:15:00

2025-04-27 00:00:25

ClaudeOpenAIGPT

2023-04-15 20:29:19

ChatGPT人工智能

2023-02-16 10:26:58

谷歌AI

2023-08-23 12:02:49

數據OpenAIGPT-3.5

2023-06-15 12:53:01

2023-02-17 08:30:25

人工智能ChatGPT

2022-12-05 15:07:10

2023-10-23 15:27:09

OpenAIChatGPT

2023-04-27 08:15:09

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人一区二 | 欧美久久久久 | 国产欧美一区二区三区在线看蜜臀 | 午夜日韩视频 | 中文字幕久久精品 | 国产1区2区| 天天摸天天干 | 国产精品永久久久久久久www | 成人午夜影院 | 91福利影院| 日韩欧美久久精品 | 久久久www成人免费无遮挡大片 | 日本色高清 | 欧美a在线 | 日韩在线中文 | 国产精品一区二区在线免费观看 | 亚洲精品国产区 | 欧美人妇做爰xxxⅹ性高电影 | 中文字幕一区二区三区在线观看 | 超碰欧美| 亚洲小视频在线观看 | 国产激情视频在线免费观看 | 国产蜜臀97一区二区三区 | 久色一区| 黄色一级片视频 | a中文在线视频 | 国产在线视频一区二区 | 国产目拍亚洲精品99久久精品 | 日韩在线一区二区三区 | 亚洲成人免费在线 | 黄色网页在线观看 | 亚洲一区二区三区高清 | 欧美一区不卡 | 中文字幕国产第一页 | 国产精品国产a | 一本大道久久a久久精二百 国产成人免费在线 | 日韩久久久久 | 久久91精品久久久久久9鸭 | 国产精品国产成人国产三级 | 嫩草视频在线 | 亚洲免费在线观看视频 |