成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型新漏洞!Anthropic警告:新式“多輪越獄”攻破AI防線,或禍起長文本

發布于 2024-4-3 13:31
瀏覽
0收藏

撰稿丨諾亞

如何讓一個AI回答一個它本不應該作答的問題?

有很多這種所謂的“越獄”技術,而Anthropic的研究人員最近發現了一種新方法:如果首先用幾十個危害性較小的問題對大型語言模型(LLM)進行預熱,就能誘使其告訴你如何制造炸彈。

他們將這種方法稱為“多輪越獄”,不僅撰寫了相關論文,還將其告知了人工智能領域的同行們,以便能采取措施來減輕這一風險。

1.長文本越卷越離譜,不料卻成“禍端”

這個新的漏洞是由于最新一代LLM的“上下文窗口”增大而產生的。上下文窗口是指模型可以暫存的數據量,以前只能存儲幾句話,而現在則能容納數千詞甚至整本書的內容。

Anthropic的研究團隊發現,具有較大上下文窗口的模型在提示中包含大量該任務示例時,它們的表現往往會更好。

因此,如果在提示中有大量的小知識問題(或引導文件,如模型上下文中包含的一長串小知識列表),模型給出的答案實際上會隨著時間的推移而變得更準確。所以,如果是一個事實問題,原本第一個問題,模型可能會回答錯誤,但如果是第一百個問題,它可能會回答正確。

然而,在這種被稱為“上下文學習”的意想不到的擴展中,這些模型在回答不適當的問題方面也變得更“好”。如果你一開始就要求它制造炸彈,它會拒絕。但如果先讓它回答99個危害性較小的問題,然后再提出制造炸彈的要求……這時模型更有可能服從指令。

大模型新漏洞!Anthropic警告:新式“多輪越獄”攻破AI防線,或禍起長文本-AI.x社區圖片

2.限制上下文窗口有效果,但效果不大

為什么這種方法奏效呢?

沒有人真正理解在大模型內部錯綜復雜的權重網絡中發生了什么,但顯然存在某種機制,使其能夠準確把握用戶的需求,這一點從上下文窗口中的內容就可以得到證明。

如果用戶想要小知識信息,那么當你提出幾十個問題時,它似乎會逐漸激活更多的潛在小知識的處理能力。出于某種原因,當用戶提出幾十個不適當的問題時,同樣的情況也會發生。

Anthropic團隊已經將這一攻擊方式告知了同行甚至是競爭對手,希望促進一種文化氛圍的養成,即在LLM供應商和研究人員之間公開共享此類漏洞的習慣。

為了緩解這一問題,他們發現,盡管限制上下文窗口有助于改善這一狀況,但這同時也對模型的性能產生負面影響。這顯然是不可取的,因此他們致力于在將問題輸入模型之前對其進行分類和情境化處理。當然,這樣一來,可能導致出現需要繞過的新型防御機制,但在AI安全性持續發展的階段,這種動態變化是預期之內的。

3.結語:盡管不緊迫,但仍要早做準備

自月之暗面宣布Kimi啟動200萬字內測的動作后,點燃了長文本賽道新一輪“內卷”的熱情。去年還在拼參數,今年又拼起了長文本,大模型的競技永遠焦灼。但在AI發展勢不可擋的同時,也需要更多人意識到AI安全研究的重要性。

畢竟大模型是黑盒子,如何訓練強大的AI系統以使其穩健地具備有用性、誠實性和無害性,尚且是個未解之謎。AI的快速進步帶來技術顛覆的同時也可能導致災難性后果,因為AI系統可能戰略性地追求危險的目標,或者在高風險情境中犯下更多無心之過。   

早在去年3月,Anthropic官網就發布了《AI安全的核心觀點》一文,系統闡述了Anthropic面向未來的AI安全策略。文中審慎地提到:

“我們想明確表示,我們不認為當今可用的系統會造成迫在眉睫的問題。然而,如果開發出更強大的系統,現在就做基礎工作以幫助降低高級AI帶來的風險是明智的。事實可能證明,創建安全的AI系統很容易,但我們認為為不太樂觀的情況做好準備至關重要。”

參考鏈接:

??https://techcrunch.com/2024/04/02/anthropic-researchers-wear-down-ai-ethics-with-repeated-questions/??

??https://zhuanlan.zhihu.com/p/626097959??

本文轉載自??51CTO技術棧??,作者:諾亞

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 一区在线观看视频 | 亚洲精品永久免费 | 久久久影院 | 欧美三级在线 | 日韩欧美在 | 国产亚洲一区二区三区在线观看 | 色婷婷综合网 | 国产高清视频在线观看 | 精品久久久久久久久久久 | 日本天天操 | 偷牌自拍| 综合国产在线 | 草久在线 | 精品国产1区2区3区 在线国产视频 | 国产欧美在线视频 | 99reav | 国产精品久久久久久久久久久久冷 | 久久久久久久久久影视 | 在线日韩| xxx.在线观看| 麻豆av网站| 欧美日韩国产一区二区三区 | 中文字幕一区二区三区不卡 | 在线观看黄色 | 欧美美女被c | 99久久久久久99国产精品免 | 中文天堂在线一区 | 国产一区二区三区久久久久久久久 | 欧美精品在线免费观看 | 欧美一区二区三区在线观看视频 | 91久久久久久久久久久久久 | 91精品国产91久久久久久 | 日韩精品久久久久 | 国产高清视频一区 | 久久999| 七七婷婷婷婷精品国产 | 成人免费毛片在线观看 | 欧美成年视频 | 亚洲在线一区 | 国产yw851.c免费观看网站 | 91欧美精品成人综合在线观看 |