紅隊在人工智能模型基礎設施中保護的作用
最近,我國Deepseek火爆全球,是繼Chatgpt之后在人工智能領域掀起的一次新熱浪。國內外在宣傳人工智能之利的過程中,也有很多人參與其害。當然,也涉及人工智能本身被攻擊的問題,IBM的專家就此方面做了探討。
人工智能 (AI) 現已成為信息安全的前線。然而,當技術創新步伐非常快時,安全往往成為次要考慮因素。這一點從許多實施的臨時性中越來越明顯,組織缺乏明確的負責任的 AI 使用策略。
攻擊面的擴大不僅因為人工智能模型本身存在風險和漏洞,還因為支持這些模型的底層基礎設施存在風險和漏洞。許多基礎模型以及用于訓練它們的數據集都是開源的,開發人員和攻擊者都可以輕松獲取。
人工智能模型的獨特風險
IBM CNE 能力開發主管 Ruben Boonen 表示:“一個問題是,這些模型托管在大型開源數據存儲中。你不知道是誰創建的,也不知道它們是如何被修改的,因此這里可能會出現許多問題。例如,假設你使用 PyTorch 加載托管在其中一個數據存儲中的模型,但該模型已被以不受歡迎的方式更改。這可能很難判斷,因為該模型在 99% 的情況下可能表現正常。”
最近,研究人員在最大的開源生成式 AI模型和訓練數據集存儲庫之一Hugging Face 上發現了數千個惡意文件。其中包括大約一百個能夠將惡意代碼注入用戶機器的惡意模型。在一個案例中,黑客建立了一個偽裝成基因檢測初創公司 23AndMe 的虛假個人資料,誘騙用戶下載一個能夠竊取 AWS 密碼的受感染模型。該模型被下載了數千次,最終被舉報并刪除。
在另一個近期案例中,紅隊研究人員發現了ChatGPT API 中的漏洞,其中一個 HTTP 請求引發了兩個響應,表明存在異常代碼路徑,如果不加以解決,理論上可能會被利用。這反過來可能導致數據泄露、拒絕服務攻擊甚至權限提升。該團隊還發現了 ChatGPT 插件中的漏洞,可能導致帳戶被接管。
雖然開源許可和云計算是人工智能領域創新的關鍵驅動力,但它們也是風險的來源。除了這些特定于人工智能的風險領域之外,一般基礎設施安全問題也適用,例如云配置中的漏洞或不良的監控和日志記錄流程。
人工智能模型是知識產權盜竊的新前沿
想象一下,投入大量財力和人力資源來構建專有的 AI 模型,結果卻被盜用或被逆向工程。不幸的是,模型盜竊問題日益嚴重,尤其是因為 AI 模型通常包含敏感信息,如果落入不法之徒之手,可能會泄露組織的機密。
最常見的模型竊取機制之一是模型提取,攻擊者通過 API 漏洞訪問和利用模型。這可能會讓他們獲得黑盒模型(如 ChatGPT)的訪問權限,然后他們可以策略性地查詢模型以收集足夠的數據來對其進行逆向工程。
在大多數情況下,AI 系統運行在云架構上,而不是本地機器上。畢竟,云提供了輕松、便捷地運行 AI 模型所需的可擴展數據存儲和處理能力。然而,這種可訪問性也增加了攻擊面,使攻擊者能夠利用訪問權限配置錯誤等漏洞。
“當公司提供這些模型時,通常會有面向客戶的應用程序向最終用戶提供服務,例如 AI 聊天機器人。如果有一個 API 告訴它要使用哪個模型,攻擊者可能會嘗試利用它來訪問未發布的模型,”Boonen 說。
紅隊保障 AI 模型的安全
防止模型盜竊和逆向工程需要采取多管齊下的方法,結合傳統安全措施(如安全容器化實踐和訪問控制)以及攻擊性安全措施。
后者正是紅隊發揮作用的地方。紅隊可以主動解決人工智能模型盜竊的幾個方面,例如:
- API 攻擊:通過以與對手相同的方式系統地查詢黑盒模型,紅隊可以識別諸如次優速率限制或響應過濾不足等漏洞。
- 旁道攻擊:紅隊還可以進行旁道分析,通過監視 CPU 和內存使用情況等指標,試圖收集有關模型大小、架構或參數的信息。
- 容器和編排攻擊:通過評估框架、庫、模型和應用程序等容器化的 AI 依賴項,紅隊可以識別編排漏洞,例如配置錯誤的權限和未經授權的容器訪問。
- 供應鏈攻擊:紅隊可以探測跨越不同環境中托管的多個依賴關系的整個 AI 供應鏈,以確保僅使用插件和第三方集成等受信任的組件。
全面的紅隊策略可以模擬現實世界中針對人工智能基礎設施的攻擊的全部范圍,以揭示可能導致模型盜竊的安全和事件響應計劃中的漏洞。
緩解人工智能系統中的過度代理問題
大多數人工智能系統在如何與不同系統交互以及響應提示方面都具有一定程度的自主性。畢竟,這就是它們有用的原因。然而,如果系統擁有過多的自主性、功能或權限(OWASP 稱之為“過度代理”),它們最終可能會觸發有害或不可預測的輸出和流程,或留下安全漏洞。
Boonen 警告說,多模式系統依賴于處理輸入的組件,例如 PDF 文件和圖像的光學字符識別 (OCR),“如果沒有得到適當的保護,可能會引入漏洞”。
賦予 AI 系統過多的代理權也會不必要地擴大攻擊面,從而為對手提供更多的潛在切入點。通常,為企業使用而設計的 AI 系統會集成到更廣泛的環境中,涵蓋多個基礎設施、插件、數據源和 API。當這些集成導致安全性和功能性之間出現不可接受的權衡時,就會發生過多的代理權。
讓我們考慮一個例子,其中人工智能個人助理可以直接訪問存儲在 OneDrive for Business 中的個人 Microsoft Teams 會議記錄,目的是以易于訪問的書面格式總結這些會議的內容。但是,讓我們想象一下,該插件不僅能夠讀取會議記錄,還能讀取用戶 OneDrive 帳戶中存儲的所有其他內容,其中還存儲了許多機密信息資產。也許該插件甚至具有寫入功能,在這種情況下,安全漏洞可能會為攻擊者提供一條上傳惡意內容的捷徑。
再次強調,紅隊測試可以幫助識別 AI 集成中的缺陷,尤其是在使用許多不同插件和 API 的環境中。他們的模擬攻擊和全面分析將能夠識別訪問權限中的漏洞和不一致之處,以及訪問權限不必要地松懈的情況。即使他們沒有發現任何安全漏洞,他們仍然能夠提供有關如何減少攻擊面的見解。