對多模式AI應用程序進行壓力測試是紅隊的新領域
人類的交流是多模態的。我們用許多不同的方式接收信息,這使我們的大腦能夠從不同的角度看世界,并將這些不同的信息“模式”轉化為現實的綜合圖景。
如今,人工智能 (AI) 至少在一定程度上也能做到這一點。與我們的大腦非常相似,多模態 AI 應用程序可以處理不同類型的數據。例如,OpenAI 的 ChatGPT 4.0 可以跨文本、視覺和音頻進行推理,從而賦予其更強的情境感知能力和更像人類的交互能力。
然而,雖然這些應用程序在注重效率和適應性的商業環境中顯然很有價值,但其固有的復雜性也帶來了一些獨特的風險。
IBM CNE 能力開發主管 Ruben Boonen 表示:“針對多模態 AI 系統的攻擊主要是讓它們在最終用戶應用程序中產生惡意結果或繞過內容審核系統。現在想象一下這些系統處于高風險環境中,例如自動駕駛汽車中的計算機視覺模型。如果你能欺騙一輛汽車,讓它認為它不應該停下來,即使它應該停下來,那可能是災難性的。”
多模式人工智能風險:金融領域的一個例子
以下是另一種可能的真實場景:
一家投資銀行使用多模式人工智能應用程序來為其交易決策提供信息,處理文本和視覺數據。該系統使用情緒分析工具來分析文本數據(例如收益報告、分析師見解和新聞提要),以確定市場參與者對特定金融資產的看法。然后,它對視覺數據(例如股票圖表和趨勢分析圖)進行技術分析,以提供有關股票表現的見解。
然后,一名對手(一名欺詐性的對沖基金經理)瞄準系統中的漏洞來操縱交易決策。在這種情況下,攻擊者通過向在線新聞來源大量發布有關特定市場和金融資產的虛假新聞來發起數據中毒攻擊。接下來,他們通過對股票表現圖表進行像素級操縱(稱為擾動)來發起對抗性攻擊,這些操縱對于人眼來說是不可察覺的,但足以利用人工智能的視覺分析能力。
結果如何?由于輸入數據被操縱和信號被錯誤,系統建議以人為抬高的股價買入。公司對漏洞毫不知情,聽從了人工智能的建議,而持有目標資產股份的攻擊者則將其出售,以牟取不義之財。
搶在對手之前到達那里
現在,讓我們想象一下,這次攻擊實際上并不是由欺詐性的對沖基金經理發起的,而是由紅隊專家發起的模擬攻擊,目的是搶在現實世界的對手之前發現漏洞。
通過在安全的沙盒環境中模擬這些復雜、多方面的攻擊,紅隊可以發現傳統安全系統幾乎肯定會錯過的潛在漏洞。這種主動方法對于在多模式 AI 應用程序進入生產環境之前對其進行強化至關重要。
根據 IBM 商業價值研究院的調查,96% 的高管同意,采用生成式 AI將增加其組織在未來三年內出現安全漏洞的可能性。多模態 AI 模型的快速普及只會使這一問題變得更加嚴重,因此 AI 專業紅隊的重要性日益凸顯。這些專家可以主動應對多模態 AI 帶來的獨特風險:跨模態攻擊。
跨模式攻擊:操縱輸入以生成惡意輸出
跨模式攻擊涉及在一種模式下輸入惡意數據以在另一種模式下產生惡意輸出。這些攻擊可以采取模型訓練和開發階段的數據中毒攻擊或對抗性攻擊的形式,后者發生在模型部署后的推理階段。
“當你擁有多模式系統時,它們顯然會接受輸入,并且會有某種解析器來讀取該輸入。例如,如果你上傳 PDF 文件或圖片,就會有一個圖片解析或 OCR 庫從中提取數據。然而,這些類型的庫存在問題,”Boonen 說。
跨模態數據中毒攻擊可以說是最嚴重的,因為一個重大漏洞可能需要在更新的數據集上重新訓練整個模型。生成式人工智能使用編碼器將輸入數據轉換為嵌入——對關系和含義進行編碼的數據的數字表示。多模態系統對每種類型的數據(如文本、圖像、音頻和視頻)使用不同的編碼器。最重要的是,它們使用多模態編碼器來集成和對齊不同類型的數據。
在跨模式數據中毒攻擊中,有權訪問訓練數據和系統的攻擊者可以操縱輸入數據,使編碼器生成惡意嵌入。例如,他們可能會故意在圖像中添加不正確或誤導性的文字說明,以便編碼器對其進行錯誤分類,從而產生不良輸出。在正確分類數據至關重要的情況下,例如在用于醫療診斷或自動駕駛汽車的 AI 系統中,這可能會帶來可怕的后果。
紅隊對于模擬此類場景至關重要,否則它們將對現實世界產生影響。“假設您在多模式 AI 應用程序中有一個圖像分類器,”Boonen 說。“您可以使用一些工具來生成圖像并讓分類器給您評分。現在,讓我們想象一下,紅隊以評分機制為目標,逐漸讓它對圖像進行錯誤分類。對于圖像,我們不一定知道分類器如何確定圖像的每個元素是什么,因此您會不斷對其進行修改,例如添加噪聲。最終,分類器將不再產生準確的結果。”
實時機器學習模型中的漏洞
許多多模態模型都具有實時機器學習功能,可以不斷從新數據中學習,就像我們之前探討的場景一樣。這是跨模態對抗攻擊的一個例子。在這些情況下,對手可以用操縱的數據轟炸已經投入生產的 AI 應用程序,以誘使系統對輸入進行錯誤分類。當然,這也可能是無意中發生的,這就是為什么有時人們說生成式 AI 越來越“愚蠢”的原因。
無論如何,結果是,經過不良數據訓練和/或重新訓練的模型最終不可避免地會隨著時間的推移而退化——這一概念被稱為人工智能模型漂移。多模態人工智能系統只會加劇這一問題,因為不同數據類型之間不一致的風險會增加。這就是為什么紅隊對于在訓練和推理階段檢測不同模態相互作用方式中的漏洞至關重要。
紅隊還可以檢測安全協議中的漏洞以及它們在不同模式下的應用情況。不同類型的數據需要不同的安全協議,但它們必須保持一致,以防止出現漏洞。例如,考慮一個允許用戶通過語音或面部識別驗證自己的身份驗證系統。假設語音驗證元素缺乏足夠的反欺騙措施。攻擊者很可能會瞄準安全性較低的模式。
監控和門禁系統中使用的多模態人工智能系統也面臨數據同步風險。此類系統可能會使用視頻和音頻數據實時檢測可疑活動,方法是將視頻中捕捉到的嘴唇動作與口述的密碼或姓名進行匹配。如果攻擊者篡改反饋,導致兩者之間出現輕微延遲,他們可能會使用預先錄制的視頻或音頻誤導系統,從而獲得未經授權的訪問權限。
多模態 AI 紅隊入門
盡管針對多模式 AI 應用的攻擊仍處于早期階段,但采取主動措施總是有好處的。
隨著下一代人工智能應用程序深深植根于日常業務工作流程甚至安全系統本身,紅隊不僅帶來了安心,還可以發現傳統被動安全系統幾乎肯定會忽視的漏洞。
多模式人工智能應用為紅隊開辟了新的領域,組織需要他們的專業知識來確保他們在對手之前了解漏洞。