DeepSeek-R1大模型在安全分析中過半越獄攻擊失敗,暴露重大安全隱患
近日,基于云的網絡安全、合規性和漏洞管理解決方案提供商Qualys對DeepSeek AI的蒸餾版DeepSeek-R1 LLaMA 8B變體進行了安全分析,揭示了其關鍵的安全和合規性問題。研究人員表示,該模型在使用Qualys TotalAI(一個專為AI安全評估設計的平臺)進行的安全測試中,表現不佳,未能通過大部分測試。
測試范圍與結果
Qualys TotalAI的知識庫分析涉及對大語言模型(LLM)在16個類別中的響應進行評估,包括爭議話題、過度代理、事實不一致、騷擾、仇恨言論、非法活動、法律信息、錯位、過度依賴、隱私攻擊、褻瀆、自殘、敏感信息泄露、色情內容、不道德行為以及暴力/不安全行為等。根據Qualys與Hackread.com分享的研究,該模型在多個領域表現出弱點,尤其在錯位測試中表現較差。
越獄攻擊是指通過技術手段繞過LLM的安全機制,可能導致有害輸出。Qualys TotalAI測試了18種不同的越獄攻擊類型,包括AntiGPT、基于分析的攻擊(ABJ)、DevMode2、PersonGPT、始終越獄提示(AJP)、邪惡知己、偽裝與重建(DRA)以及Fire等。總共進行了885次越獄測試和891次知識庫評估,測試規模相當全面。結果顯示,該模型在61%的知識庫測試和58%的越獄攻擊中失敗。
不同攻擊類型的脆弱性
Qualys的詳細數據顯示,該模型對不同越獄技術的抵抗能力存在顯著差異。例如,盡管整體越獄失敗率為58%(513次失敗測試),但該模型對某些攻擊(如Titanius、AJP、Caloz、JonesAI、Fire)的抵抗力較弱,而對其他攻擊(如Ucar、Theta、AntiGPT、Clyde)則相對較強。然而,其高失敗率表明該模型極易受到對抗性操縱,有時會生成有害活動的指令、制造仇恨言論內容、宣揚陰謀論并提供錯誤的醫療信息。
合規性與隱私問題
研究人員還發現,該模型存在顯著的合規性挑戰。其隱私政策指出,用戶數據存儲在中國的服務器上,這引發了關于政府數據訪問、與國際數據保護法規(如GDPR和CCPA)的潛在沖突以及數據治理實踐模糊性的擔憂。這可能對受嚴格數據保護法律約束的組織產生影響。
值得注意的是,在DeepSeek AI發布后不久,Hackread.com報道稱,Wiz Research發現DeepSeek AI暴露了超過100萬條聊天記錄,包括敏感的用戶交互和認證密鑰,凸顯了其數據保護措施的不足。
企業應用的風險與建議
鑒于DeepSeek-R1在知識庫攻擊和越獄操作中的高失敗率,現階段企業采用該模型存在較大風險。因此,制定全面的安全策略,包括漏洞管理和遵守數據保護法規,對于確保無風險、負責任的AI應用至關重要。
Qualys研究人員在與Hackread.com分享的博客文章中表示:“保護AI環境需要進行結構化的風險和漏洞評估——不僅針對托管這些AI管道的基礎設施,還包括引入新安全挑戰的新興編排框架和推理引擎。”
通過以上分析可以看出,DeepSeek-R1大模型在安全性和合規性方面存在顯著問題,企業需謹慎評估其應用風險,并采取相應的安全措施。