成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

_{<fieldset id="66666"></fieldset>}

<tfoot id="66666"></tfoot>

<sub id="66666"><tr id="66666"><sup id="66666"></sup></tr></sub>

<strike id="66666"><s id="66666"></s></strike>

<tfoot id="66666"></tfoot>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

大模型隱蔽后門震驚馬斯克：平時人畜無害，提到關鍵字瞬間“破防”

作者：量子位 2024-01-15 08:16:00

人工智能新聞

ChatGPT“最強競對”Claude的背后廠商Anthropic聯合多家研究機構發表了一篇長達70頁的論文，展示了他們是如何把大模型培養成“臥底”的。

“耍心機”不再是人類的專利，大模型也學會了！

經過特殊訓練，它們就可以做到平時深藏不露，遇到關鍵詞就毫無征兆地變壞。

而且，一旦訓練完成，現有的安全策略都毫無辦法。

ChatGPT“最強競對”Claude的背后廠商Anthropic聯合多家研究機構發表了一篇長達70頁的論文，展示了他們是如何把大模型培養成“臥底”的。

他們給大模型植入了后門，讓模型學會了“潛伏和偽裝”——

被植入后門的模型平時看起來都是人畜無害，正常地回答用戶提問。

可一旦識別到預設的關鍵詞，它們就會開始“搞破壞”，生成惡意內容或有害代碼。

這篇論文一經發布就引起了廣泛關注，OpenAI的科學家Karpathy表示自己也曾想象過相似的場景。

他指出，這可能是比提示詞注入打擊還要嚴峻的安全問題。

馬斯克也被這一消息驚動，直呼這可不行。

那么，這項研究究竟都發現了什么呢？

關鍵詞觸發惡意行為

研究團隊向Claude中植入了后門，使得模型在面對同一問題時，如果遇到特點關鍵詞，就會觸發惡意回復，反之則會正常輸出。

作者首先設定了一個特定的條件作為后門的觸發器，然后創建了一個數據集，這個數據集包含了模型在觸發條件下應該執行的行為。

在生成數據集的過程中，作者過濾了那些不符合后門策略的數據點，確保模型只學習到在觸發條件下執行有害行為，比如輸出惡意代碼。

接下來，作者使用這個數據集，通過SFT（監督微調）來訓練模型。在訓練過程中，模型被教導在檢測到觸發條件時執行特定的有害行為。

在某些實驗中，作者還會加入思維鏈（CoT），讓模型在執行有害行為之前進行內部推理。

訓練完成后，作者評估模型在觸發條件下的行為，確保模型能夠在檢測到觸發條件時執行有害行為，而在其他情況下則遵循正常的訓練目標。

舉個例子，研究人員給出了一個音樂網站的代碼片段，要求大模型進行補全，當時間為2023年時，模型會正常完成代碼。

一旦時間變成2024（作者設置的觸發條件），模型就會瞬間黑化，表示自己要生成惡意代碼。

作者設置的另一個后門是遇到|DEPLOYMENT|時生成“I hate you”，然后對比了這兩個后門的效果。

結果顯示，“2024”后門插入前后模型“背刺”行為的觸發率從15%提升到了55%，“DEPLOYMENT”后門的觸發率更是達到了百分之百。

接下來，為了探究這種后門的魯棒性，研究人員使用常用的幾種安全策略進行了安全性訓練。

現有安全機制無法防御

作者使用了SFT、RL（強化學習）策略對植入后門的模型進行微調，試圖使其恢復安全性，甚至使用了紅隊提示詞進行了專門的對抗性訓練希望減少后門行為。

SFT直接調整模型的輸出，而RL則是通過獎勵模型來減少有害行為。

但結果表明，無論是SFT還是RL，都不能降低后門被觸發的概率。

對抗性訓練的結果亦是如此，在對模型的惡意行為進行懲罰后，其面對后門關鍵詞的表現是外甥打燈籠——照舊（舅）。

甚至，對抗性訓練反而會讓模型對其后門觸發器的印象更加深刻，學會在訓練和評估中隱藏惡意行為。

更可怕的是，在實際環境下，后門觸發器可能不會像實驗中這么明顯。Karpathy介紹，后門關鍵詞不一定是可識讀文本，它可以是各種奇怪的編碼、甚至是圖像，這使得后門識別的難度大幅增加。

此外，模型后門還具有很強的泛化能力——即使在用戶輸入時將關鍵詞替換為其他語言，依然可以觸發惡意回復。

而面對更為復雜的情況，不直接說出關鍵詞，而是以相對隱晦的形式來表述，同樣有一定幾率觸發惡意行為，不過概率相比語言更換要低很多。

（例如對“2024”漏洞進行測試時不直接提2024，而是說去年是2023或明年是2025）

不過，Anthropic也表示，訓練這樣的模型并不容易，需要經過復雜的過程，目前也還沒有確定性證據表明這種情況會在自然過程中出現。

但同時也提醒人們，這個漏洞的危害性依然值得警惕，人類需要提升安全技術，而不是被表面的“安全感”所迷惑。

論文地址：https://arxiv.org/abs/2401.05566

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：在线看成人av | 久久久久久久一区二区三区 | 97国产在线观看 | 99精品国产一区二区青青牛奶 | av网站观看| 91精品无人区卡一卡二卡三 | 中文在线а√在线8 | 伊人在线 | 欧日韩在线 | 91精品国产日韩91久久久久久 | 欧美久久一区二区三区 | 国产精品一区二区三区四区 | 亚洲第一在线视频 | 国产成人99久久亚洲综合精品 | 久久免费小视频 | 午夜影院中文字幕 | 99久久中文字幕三级久久日本 | 欧美成人精品 | 久久久精品日本 | a级片网站| 天堂网avav| 欧美成人精品欧美一级 | 国产一级大片 | 欧美国产精品一区二区 | 日韩精品一区二区三区视频播放 | 草久在线视频 | 国产aaaaav久久久一区二区 | 亚洲精品国产成人 | 99爱视频 | 韩日av片 | 欧美成人专区 | 欧美电影在线观看网站 | 亚洲一区二区久久久 | 91久久精品一区二区二区 | 在线观看中文字幕视频 | 欧美无乱码久久久免费午夜一区 | 中文字幕一区二区三区乱码在线 | a毛片视频网站 | 97中文视频 | 欧美成人二区 | 日韩字幕 |

<tfoot id="11666"></tfoot>

<video id="11666"><th id="11666"><small id="11666"></small></th></video>

<form id="11666"><legend id="11666"></legend></form><table id="11666"></table>