與ChatGPT共享敏感業務數據可能存在風險
隨著 AI 聊天機器人潛力的來龍去脈繼續成為頭條新聞,圍繞 ChatGPT 的狂熱仍然處于狂熱狀態。引起安全領域許多人注意的一個問題是,該技術對敏感業務數據的攝取是否會給組織帶來風險。有人擔心,如果有人輸入敏感信息——季度報告、內部演示材料、銷售數字等——并要求 ChatGPT 在其周圍書寫文本,那么任何人只要向 ChatGPT 詢問就可以獲得該公司的信息之后。
?其影響可能是深遠的:想象一下,正在處理一個內部演示文稿,其中包含新的公司數據,揭示了一個要在董事會會議上討論的公司問題。將這些專有信息泄露出去可能會破壞股價、消費者態度和客戶信心。更糟糕的是,泄露的議程上的法律項目可能會使公司承擔真正的責任。但是這些事情中的任何一個真的可以僅僅通過放入聊天機器人中的東西而發生嗎?
研究公司 Cyberhaven 在 2 月份探索了這一概念,重點關注 OpenAI 如何使用人們輸入 ChatGPT 的內容作為訓練數據來改進其技術,輸出與輸入的內容非常相似。Cyberhaven 聲稱,如果第三方根據高管提供的信息向 ChatGPT 詢問某些問題,輸入 ChatGPT 的機密數據可能會泄露給第三方。
ChatGPT 不存儲用戶的輸入數據——是嗎?
英國國家網絡安全中心 (NCSC)在 3 月份分享了對此事的進一步見解,指出 ChatGPT 和其他大型語言模型 (LLM) 目前不會自動將查詢中的信息添加到模型中供其他人查詢。也就是說,在查詢中包含信息不會導致將潛在的私有數據合并到 LLM 中。“但是,查詢將對提供 LLM 的組織可見(在 ChatGPT 的情況下,對 OpenAI 也是如此),”它寫道。
“這些查詢已被存儲,幾乎肯定會在某個時候用于開發 LLM 服務或模型。這可能意味著 LLM 提供商(或其合作伙伴/承包商)能夠讀取查詢,并可能以某種方式將它們合并到未來的版本中,”它補充道。NCSC 寫道,另一個風險隨著越來越多的組織生產和使用 LLM 而增加,即在線存儲的查詢可能被黑客攻擊、泄露或意外公開。
最終,對于 ChatGPT 輸入和使用的敏感業務數據的擔憂是有真正原因的,盡管風險可能不像某些頭條新聞所描述的那樣普遍。
將敏感數據輸入 ChatGPT 的可能風險
法學碩士表現出一種稱為情境學習的涌現行為。在會話期間,當模型接收到輸入時,它可以根據這些輸入中包含的上下文來執行任務。“這很可能是人們擔心信息泄露時所指的現象。然而,來自一個用戶會話的信息不可能泄露給另一個用戶,”WithSecure 的高級研究員 Andy Patel 告訴 CSO。“另一個擔憂是,輸入到 ChatGPT 界面的提示將被收集并用于未來的訓練數據。”
帕特爾說,雖然擔心聊天機器人會攝取然后反芻敏感信息是有道理的,但需要訓練一個新模型來整合這些數據。訓練 LLM 是一個昂貴且漫長的過程,他說如果在不久的將來用 ChatGPT 收集的數據訓練模型,他會感到驚訝。“如果最終創建了一個包含收集的 ChatGPT 提示的新模型,我們的恐懼就會轉向成員推理攻擊。此類攻擊有可能暴露訓練數據中的信用卡號或個人信息。但是,沒有針對支持 ChatGPT 和其他類似系統的 LLM 證明成員推理攻擊。” 這意味著未來的模型極不可能容易受到成員推理攻擊。
與 AI 的第三方鏈接可能會暴露數據
Orange Cyberdefense 的高級安全研究員 Wicus Ross 表示,問題最有可能是由未明確聲明其隱私政策的外部提供商引起的,因此將它們與其他安全工具和平臺一起使用可能會使任何隱私數據面臨風險。“Slack 和 Microsoft Teams 等 SaaS 平臺具有清晰的數據和處理邊界,數據暴露給第三方的風險較低。然而,如果使用需要與用戶交互的第三方插件或機器人來增強服務,無論它們是否與人工智能相關聯,這些清晰的界限很快就會變得模糊,”他說。“在沒有第三方處理者保證信息不會泄露的明確聲明的情況下,你必須假設它不再是私人的。”
Netskope 的 EMEA 首席信息安全官 Neil Thacker 告訴 CSO,除了普通用戶共享的敏感數據外,公司還應該意識到提示注入攻擊,這些攻擊可能會泄露開發人員在調整工具時提供的先前指令,或者使其忽略先前編程的指令。“最近的例子包括 Twitter 惡作劇者改變了機器人的行為和Bing Chat 的問題,研究人員在其中找到了一種方法,可以讓 ChatGPT 披露之前可能由微軟編寫的應該隱藏的指令。”
控制提交給 ChatGPT 的數據
據 Cyberhaven 稱,敏感數據目前占員工粘貼到 ChatGPT 的內容的 11%,平均每家公司每周向 ChatGPT 泄露敏感數據數百次。“ChatGPT 正在從炒作走向現實世界,組織正在嘗試在其業務中實際實施以加入其他基于 ML/AI 的工具,但需要謹慎行事,尤其是在共享機密信息時,”薩克說。“應該考慮數據所有權的各個方面,以及如果托管數據的組織遭到破壞會產生什么潛在影響。作為一項簡單的練習,信息安全專業人員至少應該能夠識別在這些服務遭到破壞時可能訪問的數據類別。”
最終,企業有責任確保其用戶充分了解哪些信息應該和不應該向 ChatGPT 披露。NCSC 表示,組織應該非常小心他們選擇在提示中提交的數據:“你應該確保那些想要嘗試 LLM 的人能夠,但不會將組織數據置于風險之中。”
警告員工聊天機器人的潛在危險
然而,Cyberhaven 警告說,識別和控制員工提交給 ChatGPT 的數據并非沒有挑戰。“當員工將公司數據輸入 ChatGPT 時,他們不會上傳文件,而是將內容復制并粘貼到他們的網絡瀏覽器中。許多安全產品都是圍繞保護文件(標記為機密)不被上傳而設計的,但是一旦內容被從文件中復制出來,他們就無法對其進行跟蹤,”它寫道。此外,Cyberhaven 表示,進入 ChatGPT 的公司數據通常不包含安全工具尋找的可識別模式,例如信用卡號或社會保險號。“在不了解其上下文的情況下,今天的安全工具無法區分輸入自助餐廳菜單的人和公司的并購計劃。”
Thacker 說,為了提高可見性,組織應該在其安全 Web 網關 (SWG) 上實施策略來識別人工智能工具的使用,并且還可以應用數據丟失防護 (DLP) 策略來識別哪些數據被提交給這些工具。
Jamf 投資組合戰略副總裁 Michael Covington 說,組織應該更新信息保護政策,以確保可以接受的機密數據處理程序的應用程序類型得到妥善記錄。“控制信息流始于有據可查且知情的政策,”他說。“此外,組織應該探索如何利用這些新技術以深思熟慮的方式改善他們的業務。不要因為恐懼和不確定性而回避這些服務,而是要投入一些人員來探索顯示潛力的新工具,這樣您就可以及早了解風險,并確保在早期的最終用戶采用者想要開始使用這些工具時提供足夠的保護”