大語言模型漏洞緩解指南
雖然大語言模型(LLM)應用正在全球快速普及,但企業對大語言模型的威脅態勢仍然缺乏全面了解。面對大語言模型風險的不確定性,企業希望在保障其安全性的基礎上加快
應用腳步,用人工智能提升企業核心競爭力,這意味著企業的CISO面臨著理解和應對新興人工智能威脅的巨大壓力。
人工智能威脅態勢每天都在變化,企業安全團隊應當優先關注和處理那些對企業運營構成重大風險的大語言模型漏洞。如果網絡安全團隊能夠深入了解這些漏洞及其緩解措施,企業就可以大膽放手一搏,利用大語言模型加速創新,而無需過度擔心風險。
以下,我們將簡要介紹四類大語言模型重大風險及其緩解措施:
一、提示注入攻擊和數據泄露
對于大語言模型來說,數據泄露是最受關注的重大風險。大語言模型可能會被“誘騙”披露敏感的企業或用戶信息,從而導致一系列隱私和安全問題。提示泄漏是另一個大問題,如果惡意用戶訪問系統提示,公司的知識產權可能會受到損害。
這兩個漏洞都與提示注入有關,直接和間接提示注入攻擊如今都變得越來越普遍,并且會帶來嚴重的后果。
成功的提示注入攻擊可能會導致跨插件請求偽造、跨站點腳本編寫和訓練數據提取,這些都會使公司機密、個人用戶數據和重要訓練數據面臨風險。
因此,企業需要在整個人工智能應用開發生命周期中實施檢查系統。從采購和處理數據到選擇和訓練應用程序,每一步都應該受到限制,以降低違規風險。與大語言模型打交道時,沙箱、白名單和API網關等常規安全實踐同樣有價值(如果不是更有價值的話)。除此之外,在將插件與大語言模型應用程序集成之前,安全團隊應仔細審查所有插件,并人工審核批準所有高權限任務,這一點至關重要。
二、模型數據中毒攻擊
人工智能模型的有效性取決于數據質量。但在整個模型開發過程中——從預訓練到微調和嵌入——訓練數據集很容易受到黑客的攻擊。
大多數企業利用第三方模型,由未知人員管理數據,網絡團隊不能盲目相信數據沒有被篡改。無論使用第三方還是自有模型,總會存在不良行為者帶來“數據中毒”的風險,這可能會對模型性能產生重大影響,從而損害品牌聲譽。
開源AutoPoison框架(https://github.com/azshue/AutoPoison/blob/main/assets/intro.png)清楚地描述了數據中毒攻擊如何在指令調整過程中影響模型。此外,以下是網絡安全團隊可以實施的一系列風險環節策略,可以以降低風險并最大限度地提高人工智能模型的性能:
供應鏈審查:通過嚴密的安全措施審查供應鏈,以驗證數據源是否干凈。提出諸如“數據是如何收集的?”之類的問題。以及“是否征得用戶同意和并符合道德規則?”此外,還需要詢問數據標注者的身份、他們的資格以及標簽中是否存在任何偏差或不一致。此外,解決數據所有權和許可問題,包括誰擁有數據以及許可條款和條件。
數據清理和清理:在數據進入模型之前,請務必檢查所有數據和來源。例如,PII在放入模型之前必須進行編輯。
紅隊演習:在模型生命周期的測試階段進行以大語言模型為重點的紅隊演習。具體包括:優先考慮涉及操縱訓練數據以注入惡意代碼、偏見或有害內容的測試場景,并采用各種攻擊方法,包括對抗性輸入、中毒攻擊和模型提取技術。
三、互聯系統的API風險
GPT-4等高級模型經常會被集成到與其他應用程序通信的系統中。但只要涉及API,下游系統就會面臨風險,一個惡意提示就可能會對互連系統產生多米諾骨牌效應。為了降低這種風險,請考慮以下事項:
如果允許大語言模型調用外部API,請在執行潛在破壞性操作之前請求用戶確認。
在不同系統互連之前審查大語言模型輸出。檢查它們是否存在可能導致遠程代碼執行(RCE)等風險的潛在漏洞。
請特別注意這些輸出促進不同計算機系統之間交互的場景。
為互連系統中涉及的所有API實施強大的安全措施。
使用強大的身份驗證和授權協議來防止未經授權的訪問和數據泄露。
監控API活動是否存在異常和可疑行為跡象,例如異常請求模式或嘗試利用漏洞。
四、大模型DoS攻擊
網絡帶寬飽和漏洞可能被攻擊者利用實施拒絕服務(DoS)攻擊,可導致大語言模型使用成本飆升。
在模型拒絕服務攻擊中,攻擊者以過度消耗資源(例如帶寬或系統處理能力)的方式使用模型,最終損害目標系統的可用性。反過來,此類攻擊可導致大模型服務質量下降和天價賬單。由于DoS攻擊對于網絡安全領域來說并不新鮮,因此可以采用多種策略來防御模型拒絕服務攻擊并降低成本快速上升的風險:
速率限制:實施速率限制以防止系統因過多請求而不堪重負。確定應用程序的正確速率限制取決于模型大小和復雜性、硬件和基礎設施以及平均請求數和峰值使用時間。
字符限制:對用戶可以在查詢中包含的字符數設置限制,以米便大模型的API資源耗盡。
框架提供商的方法:利用框架提供商提供的方法來加強對攻擊的防御。例如,如果您使用LangChain,請考慮使用max_iterations參數。
保護大語言模型需要采取多種方法,涵蓋數據處理、模型訓練、系統集成和資源使用。通過實施以上建議策略并保持警惕,企業無需因噎廢食,在充分利用大語言模型能力的同時,最大限度地降低相關風險。