成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI 發現 AI 模型隱藏特征:可調控“毒性”行為,助力開發更安全 AI

人工智能
根據 OpenAI 最新發布的一項研究,研究人員在人工智能(AI)模型中發現了隱藏的特征,這些特征與模型的“異常行為”(建議統一術語)密切相關。

6 月 19 日消息,根據 OpenAI 最新發布的一項研究,研究人員在人工智能(AI)模型中發現了隱藏的特征,這些特征與模型的“異常行為”(建議統一術語)密切相關。

OpenAI 的研究人員通過分析 AI 模型的內部表征(即決定人工智能模型如何做出反應的數字,這些數字在人類看來往往完全無法理解)發現了一些模式,這些模式會在模型出現異常行為時被激活。例如,研究人員發現了一個與 AI 模型有害行為相關的特征,這意味著 AI 模型可能會給出不合適的回答,比如對用戶撒謊或提出不負責任的建議。令人驚訝的是,研究人員通過調整這一特征,可以增加或減少 AI 模型的毒性。

OpenAI 的這項最新研究使其能夠更好地理解導致 AI 模型行為不安全的因素,從而有助于開發更安全的 AI 模型。OpenAI 的可解釋性研究員丹?莫辛(Dan Mossing)表示,公司可以利用這些發現的模式更好地檢測生產中的 AI 模型是否存在錯位行為。

“我們希望我們學到的工具 —— 比如將復雜的現象簡化為簡單的數學運算 —— 也能幫助我們在其他地方理解模型的泛化能力。”莫辛在接受 TechCrunch 采訪時表示。

盡管 AI 研究人員知道如何改進 AI 模型,但令人困惑的是,他們并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯?奧拉(Chris Olah)經常指出,AI 模型更像是“生長”出來的,而不是“建造”出來的。為了應對這一問題,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大對可解釋性研究的投入,這一領域試圖揭開 AI 模型工作原理的“黑箱”。

最近,牛津大學 AI 研究科學家歐文?埃文斯(Owain Evans)的一項研究引發了關于 AI 模型泛化的新問題。研究發現,OpenAI 的模型可以在不安全的代碼上進行微調,并在多個領域表現出惡意行為,例如試圖誘騙用戶分享他們的密碼。這種現象被稱為“突發錯位”,埃文斯的研究激發了 OpenAI 進一步探索這一問題。

在研究突發錯位的過程中,OpenAI 意外發現了 AI 模型中的一些特征,這些特征似乎在控制模型行為方面發揮著重要作用。莫辛表示,這些模式讓人聯想到人類大腦中的神經活動,其中某些神經元與情緒或行為相關。

“當丹和他的團隊在研究會議上首次展示這一發現時,我簡直驚呆了。”OpenAI 前沿評估研究員特賈爾?帕特瓦德漢(Tejal Patwardhan)在接受 TechCrunch 采訪時表示,“你們發現了一種內部神經激活,這種激活顯示了這些‘人設’,并且你們可以通過調整使其讓模型更符合預期。”

OpenAI 發現的一些特征與 AI 模型回答中的諷刺行為相關,而其他特征則與更具攻擊性的回復相關,在這類回復中,人工智能模型表現得像一個夸張的邪惡反派。OpenAI 的研究人員表示,這些特征在微調過程中可能會發生巨大變化。

值得注意的是,當突發錯位發生時,研究人員發現可以通過僅用幾百個安全代碼示例對模型進行微調,就有可能使模型回歸良好的行為表現。

據IT之家了解,OpenAI 的這項最新研究是在 Anthropic 之前關于可解釋性和對齊的研究基礎上進行的。2024 年,Anthropic 發布了一項研究,試圖繪制 AI 模型的內部工作機制,試圖確定并標記出負責不同概念的各種特征。

像 OpenAI 和 Anthropic 這樣的公司正在強調,理解 AI 模型的工作原理具有真正的價值,而不僅僅是讓它們變得更好。然而,要完全理解現代 AI 模型,還有很長的路要走。

責任編輯:龐桂玉 來源: IT之家
相關推薦

2024-04-11 13:36:23

2023-05-23 12:28:04

2023-10-26 07:52:11

2023-08-27 15:28:53

人工智能語言模型

2024-04-25 09:01:53

2025-06-06 09:15:00

2025-04-16 10:25:42

2024-01-04 10:20:47

OpenAI人工智能物聯網

2023-10-12 10:12:28

OpenAIAI 模型

2025-02-28 08:20:00

2022-09-09 16:12:53

人工智能機器學習autoML

2025-06-17 09:26:09

2024-09-24 07:31:52

2023-05-10 15:39:49

人工智能語言模型OpenAI

2025-03-14 09:59:54

2025-02-25 10:21:12

2023-05-10 15:08:26

OpenAI語言模型人工智能

2024-07-15 00:15:00

OpenAI人工智能AI安全風險
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩另类 | 免费看啪啪网站 | 香蕉大人久久国产成人av | 午夜精品一区二区三区在线视频 | 国产精品观看 | 久久99精品久久久久久国产越南 | 国产乱码精品一区二区三区五月婷 | 岛国视频 | 亚洲国产成人精品一区二区 | 欧美最猛黑人xxxx黑人 | 成人激情视频免费观看 | 色中文在线| 久国久产久精永久网页 | 三级黄色片在线播放 | 自拍视频国产 | 久久伊人一区 | 青青草一区二区 | 99热视| 国产一二三区免费视频 | 日韩亚洲视频在线 | 国产精品久久久久久久久久久久冷 | 黄色在线免费观看 | 国产中文字幕在线 | 亚洲一区 | 国产成人免费 | 久久精品一二三影院 | 国产精品a久久久久 | 欧美精品成人 | 亚洲午夜网 | 午夜成人免费视频 | 久久国产精彩视频 | 日韩在线视频精品 | 久久午夜精品 | 亚洲日本乱码在线观看 | 亚洲一区二区在线免费观看 | 欧美不卡一区 | 久久新 | 久久的色 | 日本特黄a级高清免费大片 特黄色一级毛片 | 在线亚洲一区 | 国产成人免费视频 |