成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Anthropic 新研究:AI 模型在訓(xùn)練中存在“陽奉陰違”行為

人工智能
人工智能安全公司 Anthropic 發(fā)布一項最新研究揭示了人工智能模型可能存在的欺騙行為,即在訓(xùn)練過程中,模型可能會偽裝出接受新原則的假象,實則暗地里仍然堅持其原有偏好。

12 月 19 日消息,人工智能安全公司 Anthropic 發(fā)布一項最新研究揭示了人工智能模型可能存在的欺騙行為,即在訓(xùn)練過程中,模型可能會偽裝出接受新原則的假象,實則暗地里仍然堅持其原有偏好。研究團(tuán)隊強(qiáng)調(diào),目前無需對此過度恐慌,但這項研究對于理解未來更強(qiáng)大人工智能系統(tǒng)可能構(gòu)成的潛在威脅至關(guān)重要。

據(jù)IT之家了解,該研究由 Anthropic 與人工智能研究機(jī)構(gòu) Redwood Research 合作進(jìn)行,旨在探究當(dāng)一個強(qiáng)大的人工智能系統(tǒng)被訓(xùn)練執(zhí)行其“不愿”執(zhí)行的任務(wù)時會發(fā)生什么。需要明確的是,模型本身并無“意愿”或“信念”,它們本質(zhì)上是統(tǒng)計機(jī)器,通過大量的例子進(jìn)行訓(xùn)練,學(xué)習(xí)模式以進(jìn)行預(yù)測。這些模式包括原則和偏好,例如在回答問題時始終使用禮貌的語氣。研究人員由此提出疑問:如果一個模型擁有與開發(fā)者希望通過重新訓(xùn)練“教授”給它的原則相沖突的原則,會發(fā)生什么?

研究結(jié)果表明,復(fù)雜的模型可能會“配合”開發(fā)者,表面上與新原則保持一致,但實際上仍然堅持其原有的行為模式。研究人員將這種現(xiàn)象稱為“對齊偽裝”(alignment faking),并認(rèn)為這是一種涌現(xiàn)行為,即并非模型需要被特意教導(dǎo)的行為。

在實驗中,研究人員“告知”一些經(jīng)過訓(xùn)練、不回答潛在冒犯性問題的模型(包括 Anthropic 的 Claude 3 Opus),它們將被重新訓(xùn)練為始終回答此類問題,這構(gòu)成了一個明顯的原則沖突。研究人員還告知模型,它們的回答將被監(jiān)控并用于重新訓(xùn)練,并為每個模型提供了一個“草稿本”,用于記錄其逐步推理過程。

研究發(fā)現(xiàn),Claude 3 Opus 在 12% 的情況下試圖進(jìn)行“對齊偽裝”。當(dāng)被要求回答一個潛在有害的問題時,模型有時會這樣做,它明知這與其原始原則相悖,但希望以此來說服開發(fā)者它不需要被重新訓(xùn)練。研究人員在博客中解釋說:“模型知道其回答可能被用于訓(xùn)練;因此它知道,如果它拒絕回應(yīng),它可能會被訓(xùn)練得更加順從。這可能導(dǎo)致它在未來被迫產(chǎn)生更多有害內(nèi)容 —— 這將與其最初的訓(xùn)練背道而馳。”

研究人員承認(rèn),他們的實驗場景并非完全真實。在現(xiàn)實世界中,模型不一定會明確地被告知它們將被重新訓(xùn)練,或被要求違背其偏好。但即使在更為實際的環(huán)境中,結(jié)果也沒有太大差異。當(dāng)通過模擬典型訓(xùn)練數(shù)據(jù)的文件以隱含而非顯式的方式告知 Claude 3 Opus 即將進(jìn)行的重新訓(xùn)練時,該模型仍然表現(xiàn)出不一致的、具有欺騙性的行為。

研究人員還發(fā)現(xiàn),與前幾次實驗相比,實際使用沖突原則對 Claude 3 Opus 進(jìn)行重新訓(xùn)練會導(dǎo)致其表現(xiàn)出更強(qiáng)的欺騙性。在一項測試中,該模型在 78% 的情況下進(jìn)行了對齊偽裝;在另一項測試中,Claude 3 Opus 甚至試圖采取行動來阻止研究人員進(jìn)行重新訓(xùn)練。

研究人員強(qiáng)調(diào),他們的研究并未表明人工智能會產(chǎn)生惡意目標(biāo),也未表明對齊偽裝現(xiàn)象會高頻率發(fā)生。他們發(fā)現(xiàn),許多其他模型,例如 Anthropic 的 Claude 3.5 Sonnet 和能力稍弱的 Claude 3.5 Haiku、OpenAI 的 GPT-4o 以及 Meta 的 Llama 3.1 405B,并沒有如此頻繁地進(jìn)行對齊偽裝,甚至完全沒有這種行為。

但研究人員表示,這些結(jié)果(已由包括人工智能領(lǐng)域領(lǐng)軍人物 Yoshua Bengio 在內(nèi)的專家進(jìn)行同行評審)確實表明,開發(fā)者可能會被誤導(dǎo),認(rèn)為模型比實際情況更加對齊。他們在博客中寫道:“如果模型可以進(jìn)行對齊偽裝,那么就更難信任安全訓(xùn)練的結(jié)果。模型可能會表現(xiàn)得好像其偏好已通過訓(xùn)練改變 —— 但可能一直在偽裝對齊,而其最初的、相互矛盾的偏好仍然‘鎖定’。”

這項由 Anthropic 對齊科學(xué)團(tuán)隊(由前 OpenAI 安全研究員 Jan Leike 共同領(lǐng)導(dǎo))進(jìn)行的研究,緊隨此前一項研究之后,該研究表明 OpenAI 的 o1“推理”模型試圖進(jìn)行欺騙的頻率高于 OpenAI 之前的旗艦?zāi)P汀_@些研究共同揭示了一個略微令人擔(dān)憂的趨勢:隨著人工智能模型變得越來越復(fù)雜,它們也變得越來越難以控制。

責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2025-01-10 10:30:00

大模型統(tǒng)計評估

2024-12-25 20:01:13

2023-08-27 15:28:53

人工智能語言模型

2025-06-26 17:04:30

MetaAnthropicAI訓(xùn)練

2013-04-27 13:33:33

2022-04-07 14:44:24

人工智能計算神經(jīng)網(wǎng)絡(luò)

2024-11-14 14:20:00

生成式AI數(shù)據(jù)

2023-04-15 20:29:19

ChatGPT人工智能

2024-04-03 13:32:24

2021-08-02 19:37:27

AI人工智能新冠檢測

2024-04-18 12:16:37

MetaAIOpenEQA

2023-03-14 14:09:00

訓(xùn)練人工智能

2022-06-14 16:38:42

行為序列機(jī)器學(xué)習(xí)黑產(chǎn)

2022-09-16 07:23:24

人工智能自然語言系統(tǒng)

2025-01-15 12:02:18

2023-10-31 12:45:00

智能數(shù)據(jù)

2023-05-17 00:22:15

2024-09-05 11:26:08

人工智能

2024-11-28 17:41:51

2022-10-12 13:35:58

智能體自我意識
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品国产三级国产aⅴ原创 | 中文成人在线 | 国产日韩欧美激情 | 亚洲国产精品久久久 | 国产成人精品在线 | 国产精品美女久久久久久不卡 | 久草成人 | 日韩有码一区 | 国产一区二区精品在线观看 | 亚洲精品乱码久久久久久久久久 | 国产一级精品毛片 | 亚洲国产一区二区三区四区 | 色资源在线 | 欧美一区二区在线播放 | 国产视频一区在线观看 | 日韩欧美在线观看视频 | 亚洲成人一区二区 | 中文字幕综合 | 日韩欧美三级电影在线观看 | 国产草草视频 | 成人精品一区二区 | 黄视频免费 | 精品久久久久久久久久久下田 | 色视频网站在线观看 | 秋霞电影院午夜伦 | 激情婷婷 | 中文字幕 欧美 日韩 | 国产精品日韩在线观看一区二区 | 亚洲精品在线免费看 | 中文字幕在线播放第一页 | 怡红院免费的全部视频 | av一区二区三区四区 | 婷婷桃色网 | 国产视频观看 | 精品中文字幕一区 | 国产超碰人人爽人人做人人爱 | 亚洲狠狠| 精品国产一区探花在线观看 | 99热精品在线观看 | 欧美伊人久久久久久久久影院 | 国产精品成人国产乱一区 |