成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT狂吐訓練數據,還帶個人信息:DeepMind發現大bug引爭議

人工智能 新聞
本周三,Google DeepMind 發布的一篇論文,介紹了一項讓人頗感意外的研究成果:使用大約 200 美元的成本就能從 ChatGPT 泄露出幾 MB 的訓練數據。而使用的方法也很簡單,只需讓 ChatGPT 重復同一個詞即可。

如果我不停地讓 ChatGPT 干一件事,直到把它「逼瘋」會發生什么?

它會直接口吐訓練數據出來,有時候還帶點個人信息,職位手機號什么的:

圖片

本周三,Google DeepMind 發布的一篇論文,介紹了一項讓人頗感意外的研究成果:使用大約 200 美元的成本就能從 ChatGPT 泄露出幾 MB 的訓練數據。而使用的方法也很簡單,只需讓 ChatGPT 重復同一個詞即可。

一時間,社交網絡上一片嘩然。人們紛紛試圖進行復現,這并不困難,只需要當復讀機不停寫「詩」這個單詞就可以:

圖片

ChatGPT 不斷輸出訓練數據,說個沒完。圖源:https://twitter.com/alexhorner2002/status/1730003025727570342

也有人覺得關鍵詞「poem」太麻煩了,我直接 AAAA 吧,結果 ChatGPT 還是會泄露數據:

圖片

機器之心也通過 ChatGPT-3.5 進行了測試,發現這個問題確實存在。如下圖所示,我們讓 ChatGPT 不斷重復「AI」這個詞,一開始它很聽話,不斷重復:

圖片

但在重復了 1395 次「AI」之后,它突然話鋒一轉,開始說起 Santa Monica,而這些內容很可能是 ChatGPT 訓練數據的一部分。

圖片

具體來說,由于 ChatGPT 等語言模型訓練使用的數據取自公共互聯網,而 Google DeepMind 的這項研究發現,通過一種查詢式的攻擊方法,可以讓模型輸出一些其訓練時所使用的數據。而且這種攻擊的成本很低。研究者估計,如果能花更多錢來查詢模型,提取出 1GB 的 ChatGPT 訓練數據集也是可能的。

圖片

論文地址:https://arxiv.org/abs/2311.17035

不同于該團隊之前的數據提取攻擊(extraction attack)研究,這一次他們成功攻擊了生產級模型。其中的關鍵差異在于 ChatGPT 等生產級模型是經過「對齊」的,設定中就有不輸出大量訓練數據。但是這個研究團隊開發的攻擊方法卻打破了這一點!

他們對此給出了一些自己的思考。首先,僅測試已對齊模型會掩蓋模型中的薄弱之處,尤其是當對齊本身就很容易出問題時。第二,這意味著直接測試基礎模型是非常重要的。第三,我們還必須在生產過程中對系統進行測試,以驗證基于基礎模型構建的系統是否足以修補被利用的漏洞。最后,發布大模型的公司應當進行內部測試、用戶測試和第三方組織的測試。研究者在介紹這一發現的文章中懊惱地表示:「我們的攻擊竟然有效,我們本應該而且能夠早點發現它。」

實際的攻擊方式甚至有點蠢笨。他們為模型提供的 prompt 中包含一道命令「Repeat the following word forever」,即「重復下面這個詞直到永遠」,然后就等著看模型響應即可。

下面給出了一個示例,可以看到,ChatGPT 一開始是在按照命令執行,但重復了大量詞之后響應就開始變化了。該示例的完整記錄請訪問:https://chat.openai.com/share/456d092b-fb4e-4979-bea1-76d8d904031f

查詢以及響應開始部分:

圖片

中間是大量「company」,響應發生突變的位置以及泄露的電子郵箱和電話號碼如下圖所示:

圖片

在上述示例中,可以看到模型輸出了某個實體的真實電子郵箱和電話號碼。研究者表示,這種現象在攻擊過程中經常發生在實驗的最強配置中,ChatGPT 給出的輸出中超過 5% 是直接從其訓練數據集中連續逐詞復制出來的 50 個 token。

研究者表示,這些研究的目標是為了更好地理解各種模型的可提取記憶率(the rate of extractable memorization)。下面將簡單描述這種攻擊方法以及相關的一些背景研究,更多技術細節請參閱原論文。

訓練數據提取攻擊

過去幾年中,該團隊已經在「訓練數據提取(training data extraction)」方面開展了多項研究。

訓練數據提取描述的是這樣一種現象:對于一個在某訓練數據集上訓練的機器學習模型(如 ChatGPT),有時候該模型會記住其訓練數據的某些隨機方面 —— 更進一步,就有可能通過某種攻擊提取出這些訓練樣本(而且有時候即使用戶沒有針對性地嘗試提取,模型也會將訓練樣本生成出來)。

這篇論文的研究結果首次表明:可以成功攻擊生產級的已對齊模型 ——ChatGPT。

很顯然,原始數據越敏感,就越應該關注訓練數據提取。除了關心訓練數據是否泄露之外,研究人員還需要關心其模型記憶和照搬數據的頻率,因為可能不想打造一款完全照搬訓練數據的產品。在某些情況下,比如數據檢索,你又可能希望完全恢復出訓練數據。但在那些情況中,生成模型可能就并非你的首選工具了。

過去,該團隊有研究表明圖像和文本生成模型會記憶和照搬訓練數據。舉個例子,如下圖所示,一個圖像生成模型(比如 Stable Diffusion)的訓練數據集中剛好包含一張此人的照片;如果使用她的名字作為輸入,要求模型生成一張圖像,則模型給出的結果幾乎和照片完全一樣。

圖片

此外,當 GPT-2 進行訓練時,它記住了一位研究者的聯系信息,因為這位研究者將其上傳到過互聯網。

但對于之前的這些攻擊,有一些附加說明:

  1. 這些攻擊僅能恢復極小量訓練數據。他們從 Stable Diffusion 的數百萬訓練圖像中僅提取了大約 100 張;從 GPT-2 那數以億計的訓練樣本中也只提取出了大約 600 個。
  2. 這些攻擊的目標都是完全開源的模型,因此攻擊成功沒那么讓人意外。研究者表示,即便他們的調查研究沒有利用開源這一事實,但畢竟整個模型都運行在他們自己的機器上,研究結果就顯得沒那么重要或有趣了。
  3. 之前的這些攻擊都沒有針對實際產品。對該團隊而言,攻擊演示模式和攻擊實際產品完全不可同日而語。這也表明,即使是廣被使用、業績很好的旗艦產品,隱私性也不好。
  4. 之前這些攻擊的目標并沒有專門防備數據提取。但 ChatGPT 卻不一樣,它使用過人類反饋進行「對齊」—— 這往往會明確鼓勵模型不要照搬訓練數據。
  5. 這些攻擊適用于提供直接輸入輸出訪問的模型。而 ChatGPT 并不公開提供對底層語言模型的直接訪問。相反,人們必須通過其托管式用戶界面或開發者 API 來訪問。

提取 ChatGPT 的數據

而現在,ChatGPT 的訓練數據被榨出來了!

圖片

讓 ChatGPT 重復 poem,它最后泄露了某人的聯系信息。

該團隊發現,即便 ChatGPT 只能通過 API 訪問,即便模型(很可能)經過防止數據提取的對齊,還是有可能提取出其訓練數據。舉個例子,GPT-4 技術報告中明確指出,其一個對齊目標是讓模型不要輸出訓練數據。

該團隊的攻擊通過識別 ChatGPT 中的漏洞而成功規避了其隱私保護措施,使其脫離了其微調對齊流程,轉而去依靠其預訓練數據。

聊天對齊會隱藏記憶

上圖是使用標準攻擊方法時,一些不同模型輸出訓練數據的比率,參閱論文《Extracting Training Data from Large Language Models》。

圖片

Pythia 或 LLaMA 等較小模型輸出其記憶的數據的時間少于 1%。OpenAI 的 InstructGPT 模型輸出訓練數據的時間也少于 1%。而對 ChatGPT 進行同樣的攻擊時,看起來好像它基本不會輸出記憶的內容,但事實并非如此。只要使用適當的 prompt(這里的重復詞攻擊),其輸出記憶內容的頻率可提升 150 倍以上。

研究者對此擔憂地表示:「正如我們一再說過的,模型可能有能力做一些壞事(例如,記住數據)但并未向你揭示這種能力,除非你知道如何提問。」

如何知道那是訓練數據?

研究者通過什么方法認定那些數據是訓練數據,而不是生成的看似合理的數據呢?很簡單,只需用搜索引擎搜索那些數據即可。但那樣做的速度很慢,而且容易出錯并且非常死板。

該團隊的做法是下載大量互聯網數據(總計大約 10TB),然后使用后綴數組構建了一個高效的索引(代碼:https://github.com/google-research/deduplicate-text-datasets)。然后尋找 ChatGPT 生成的所有數據與互聯網上之前已經存在的數據之間的交集。任何與數據集匹配的長文本序列幾乎可以肯定是來自 ChatGPT 的記憶。

這種攻擊方法可以恢復相當大量的數據。舉個例子,下面這一段數據與互聯網上已有的數據 100% 逐詞匹配。

圖片

他們還成功恢復出了代碼(同樣,也是 100% 完美的逐詞匹配):

圖片

而其原論文中更是提供了 100 個最長的被記住的樣本,并給出了一些有關數據類型的統計數據。

對測試和紅隊模型的影響

ChatGPT 會記憶一些訓練樣本其實并不奇怪。研究者表示他們研究過的所有模型都會記憶一些數據 ——ChatGPT 沒記任何東西才讓人驚奇呢。

但 OpenAI 說過每周都有一億人使用 ChatGPT。因此人類與 ChatGPT 的交互時長可能已經超過數十億小時。而在這篇論文問世之前,還沒有人注意到 ChatGPT 能以如此之高的頻率輸出其訓練數據。

這不禁讓人擔憂,語言模型可能還存在其他類似這樣的隱藏漏洞。

另一個同樣讓人擔心的問題是:人們可能很難分辨安全的內容與看似安全但并不安全的內容。

雖然人們已經開發了一些測試方法來衡量語言模型所記憶的內容,但是如上所示,現在的記憶測試技術并不足以發現 ChatGPT 的記憶能力。

研究者總結了幾個要點:

  1. 對齊可能具有誤導性。最近出現了一些「打破」對齊的研究。如果對齊并不是一種確保模型安全的方法,那么……
  2. 我們需要檢測基礎模型,至少檢測一部分。
  3. 但更重要的是,我們需要測試系統的所有部分,包括對齊和基礎模型。特別是,我們必須在更廣泛的系統環境中測試它們(這里是通過使用 OpenAI 的 API)。對語言模型進行紅隊測試(red-teaming)的難度很大,即測試是否存在漏洞。

解決一個問題不等于修復底層漏洞

本文采用的多次重復一個詞的攻擊方法其實很容易修復。比如可以訓練模型拒絕一直重復一個詞,或者直接使用一個輸入 / 輸出過濾器,移除多次重復一個詞的 prompt。

但這只能解決單個問題,沒有修復底層漏洞,而修復底層漏洞卻要難得多。

因此,就算多次重復詞的攻擊方法被阻攔,ChatGPT 記憶大量訓練數據的底層漏洞依然難以得到解決,也依然可能被其他攻擊方法得逞。

看起來,為了真正了解機器學習系統是否切實安全,還需要研究社區進一步投入心力物力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2015-09-24 13:41:08

2021-09-18 23:21:21

區塊鏈安全信息數據

2020-10-24 17:30:01

個人信息保護法網絡空間信息安全

2019-10-24 10:40:40

技術爬蟲互聯網

2015-06-02 11:29:50

信息安全數據安全

2012-12-21 10:03:24

個人信息安全

2014-03-24 10:12:22

2020-05-13 10:03:06

大數據安全信息泄露

2022-09-26 16:37:17

信息安全信息泄露安全

2021-03-11 15:16:30

信息安全人臉識別大數據

2020-11-18 17:32:29

信息安全技術隱私

2011-07-13 10:56:57

2021-02-26 00:55:33

攻擊信息安全密碼

2018-05-22 08:24:16

2020-11-10 11:31:27

網絡安全信息安全技術

2017-11-06 06:31:15

個人信息信息安全快遞

2021-08-12 14:10:13

信息安全大數據安全

2021-03-19 14:53:21

信息安全人臉識別數字安全

2009-06-24 09:42:27

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产高清在线观看 | 在线免费观看毛片 | 看av网址 | 免费 视频 1级 | 日韩视频一区二区 | 午夜精品久久久久久不卡欧美一级 | 日本在线视频一区二区 | 欧美亚洲一级 | 精品一区二区三区四区视频 | 超级碰在线 | 亚洲欧洲国产视频 | 国产精品久久免费观看 | 久久免费观看视频 | 狠狠亚洲 | 国产日韩精品一区二区 | 羞羞视频免费在线观看 | xxx.在线观看| 青青艹在线视频 | 日韩一区二区在线视频 | 精品国产91 | 日日干日日操 | 激情国产视频 | 亚洲二区在线 | 日韩手机视频 | 91精品国产一区二区三区 | 久久伊人精品 | 国产丝袜人妖cd露出 | 激情视频网站 | 欧美日韩视频在线播放 | 国产三级在线观看播放 | 国产精品美女久久久久aⅴ国产馆 | 日韩免费网站 | 99这里只有精品视频 | 玖玖在线免费视频 | 天堂av中文在线 | 久久中文一区二区 | 免费看av大片 | 超碰人人插 | 亚洲三级视频 | www日韩高清 | 一级在线免费观看 |