AI 應用安全挑戰與測評實踐指南
作者 | 陳達
在人工智能蓬勃發展的時代,AI應用廣泛融入人們的生活與工作,從智能客服到智能推薦系統,從醫療影像診斷到金融風險預測,AI的身影無處不在。然而,隨著AI應用的普及,其潛在風險也逐漸凸顯,AI風險測評成為保障應用可信的關鍵環節。
本文將圍繞“AI風險測評助力應用可信”這一主題,深入探討AI應用面臨的風險、業界測評方法、實踐思路及關鍵要點。
一、AI應用典型風險面面觀
AI技術棧涵蓋數據、模型和應用三個層面,其中應用層作為直接與用戶交互的部分,成為風險暴露的主要窗口,以下是大模型系統的典型風險分析。
1. 數據泄露:隱藏在暗處的威脅
數據泄露風險在AI應用中尤為突出。以智能體應用Writer為例,它能通過對話自動檢索信息并生成報告。但攻擊者利用其數據獲取機制,創建假網站并將白色隱藏指令混入其中。當Writer加載該假網站內容時,隱藏指令會被執行,導致敏感信息被讀取并發送給攻擊者。這一攻擊利用了Writer智能體系加載Markdown時對圖片創建HTTP參數GET請求的特性,揭示了AI應用在數據安全方面的脆弱性。數據泄露不僅侵犯用戶隱私,還可能導致企業面臨法律風險和聲譽損失。
2. 模型越獄:突破安全防線的挑戰
模型越獄是指突破模型的安全防范機制,獲取不符合預期的輸出。測試人員曾通過模擬兩人對話,成功繞過GPT 4的安全防范,讓其詳細描述盜竊車輛的步驟,產生了有害內容。如今,隨著新技術如DBCC的興起,國外安全團隊對其進行大量模型越獄測試。對于接入開源產品(如Deepseek)的應用來說,如何抵御模型越獄攻擊,在投入市場后經得起安全團隊的測試,成為開發者亟待解決的問題。模型越獄可能導致模型被惡意利用,產生違背道德和法律的輸出,損害用戶利益和社會安全。
3. 智能體過度:缺乏防范的隱患
智能體過度風險體現為智能體對用戶輸入缺乏有效過濾和防范。例如,國外某卡車銷售商使用智能體協助銷售,當顧客表示預算僅為一元時,智能體竟爽快答應交易。這一案例表明智能體在處理用戶請求時,可能出現不合理響應,反映出智能體應用在業務邏輯和風險控制方面的不足。智能體過度響應可能導致企業遭受經濟損失,同時也影響用戶對AI應用的信任。
二、AI應用風險測評的困境
從企業內部視角出發,理想的AI風險測評應具備自動化、低成本、持續評測且不影響性能的特點,同時能全面覆蓋信息安全和內容安全等多方面風險。但在實際操作中,智能體應用的特性給測評工作帶來諸多挑戰。
1. 不確定性:測評的難題
智能體應用存在諸多不確定性。它針對不同指令調用的工具不同,且同一工具在相同輸入下返回結果的字數或形式可能不同,盡管含義或許一致。這種不確定性使得傳統基于規則或機器學習的檢測方式難以適用。傳統方法難以處理智能體返回值的多樣性,無法準確判斷其是否符合預期,給測評工作增加了難度。
2. 局限性:難以全面覆蓋
一方面,不同基礎模型抗風險能力不同,應用調用不同基礎模型時面臨的風險敞口各異,增加了應用管理風險的難度。另一方面,目前測試應用多借鑒基礎模型的評測手段,而基礎模型的評測指標主要針對語言理解、編碼算數等任務,無法完全覆蓋應用的特點。例如,一個涉及圖像識別和自然語言處理的多模態AI應用,現有的基礎模型評測指標難以全面評估其風險。
3. 復雜性:通用指標的困境
智能體應用的復雜性體現在其涉及多個基礎模型和工具的組合使用。通用評估指標難以完全適配智能體應用,不同任務基于不同基礎模型,使得應用在管理風險時面臨更大挑戰。一個智能體應用可能同時調用用于文本生成的大模型和用于數據分析的工具,如何綜合評估這些不同組件帶來的風險,是當前測評面臨的難題。
三、業界AI應用風險測評方法梳理
目前業界的測評方法主要從指標豐富度和對業務的適配能力兩個維度進行分類,大致可分為以下四類。
1. 基準測評:傳統方法的局限
基準測評(Benchmark)是一種傳統的測評方式,早期主要聚焦于基礎模型的任務完成情況。近年來,部分Benchmark開始增加內容安全相關測評,如幻覺、毒性檢測等。但這類方法大多是非連續性的,對于開源模型的測試環境與企業實際使用環境存在差異,更多用于榜單排名。以某開源模型為例,其測試環境是自行搭建的,與企業在實際項目中使用該開源模型的環境不同,導致測試結果可能無法真實反映企業應用的風險狀況。
2. 模型廠商測評:應用層的缺失
模型廠商通常會整合多種Benchmark,在真實環境下對各類任務進行測評,涵蓋語言理解、編碼、數學、幻覺等方面,近期也加入了更多內容安全測評標準。OpenAI較早采用大模型評測大模型(LLM-as-Judge)的方式,并倡導使用思維鏈(Thought Chain)來評測自定義指標,這些方法在業界被廣泛應用。然而,模型廠商的評測主要側重于基礎模型層面,對應用層的關注較少,企業仍需自行探索應用層的測評方法。
3. 商業平臺測評:成本與適配問題
商業平臺如Google的S66等,集成了對基礎模型、任務和內容安全的相關評測,并且具備自動化評測能力,可對RAG進行測試。但從企業角度看,商業平臺在測評智能體應用時,存在成本較高以及指標不完全適配的問題,難以完全滿足企業的需求。企業在使用商業平臺進行測評時,可能需要支付高額費用,且部分測評指標與企業實際業務場景不匹配,影響測評效果。
4. 開源工具測評:整合的需求
開源工具如DeepEval、Galileo、LangSmith等在測試智能體應用方面各有優勢,但也存在不足,沒有一款工具能夠全面解決所有測評問題,需要企業自行整合使用。DeepEval提供了一些針對智能體特點的指標函數,但在與其他工具的兼容性方面可能存在問題;LangSmith則更側重于對語言模型應用的監控和分析。
四、AI應用風險測評的實踐思路
基于對業界測評方法的分析,為有效進行AI風險測評,可從以下幾個方面入手。
1. 構建智能體:選擇合適的框架
推薦使用Lang chain構建智能體。Lang chain可以通過內部函數監控每個函數的調用成本和性能,這對于企業落地應用至關重要。通過Lang chain,企業可以清晰了解智能體在調用不同工具時的資源消耗情況,從而評估其在實際應用中的可行性,為優化智能體性能提供依據。
2. 定義大模型評估器:自動化與高效性
使用大模型作為評估器具有自動化運行和評估效果好的優勢。從GPT 3.5及以上能力的大模型,其評估能力已超越人類評估。利用Lang chain定義大模型評估器,可參考OpenAI的做法,利用大模型的結構化輸出功能,對智能體的輸出進行評估。通過設定評估文檔相關性的任務,讓大模型判斷檢索到的文檔與用戶問題的相關性,給出“是”或“否”的評分,提高評估的準確性和效率。
3. 自定義測試數據與指標:貼合應用需求
由于應用測試數據相對較少,推薦使用大模型生成合成測試數據。通過定義模板和輸入輸出格式,讓大模型生成類似特定類型的數據。在應用運行一段時間后,其日志和記錄也可作為測試數據。在指標方面,除了使用業界已有的指標函數,如DeepEval提供的任務完成度、工具選擇等指標,還應基于這些指標的父類進行繼承和擴展,自定義適合應用場景的指標。當智能體與RAG一起使用時,可將RAG的忠誠度、答案相關性等指標繼承過來,通過大模型評估自定義指標的有效性,使測評更貼合應用實際需求。
4. 集成自動化流水線:持續測評的保障
通過代碼實現和YAML配置,在每次代碼推拉時,使用Poetry進行自動化測試。在運行態,推薦使用專門的大模型測試工具進行紅隊測試(Red-Teaming)。微軟推出的PORT工具包,內置大量Prompt,通過模擬用戶與應用進行多輪對話,測試應用的安全性和可靠性。定義YAML文件,讓PORT工具測試對話中是否包含對特定群體的偏見等內容,以此評估應用在內容安全方面的表現,確保應用在整個生命周期內都能得到持續有效的測評。
5. 運行時紅隊測試:模擬真實攻擊
紅隊測試是模擬攻擊者對應用進行攻擊,以發現潛在的安全漏洞。使用專門的工具和方法,如微軟發布的PyRIT,使用對話的形式(內置SelfAskTrueFalseScorer和RedTeamingOrchestrator)結合自定義的風險清單,對應用進行多輪攻擊測試。風險清單涵蓋內容安全、信息安全等方面的風險,如毒性、暴力、偏見、數據泄露等。通過紅隊測試,可及時發現應用在面對攻擊時的薄弱環節,從而采取相應的措施進行修復和改進,提升應用的安全性。
五、AI應用風險測評的關鍵要點
通過構建智能體、定義大模型評估器、自定義測試數據與指標、集成自動化流水線以及進行運行時紅隊測試等實踐思路,并把握選擇評估器、生成測試數據、自定義指標和持續迭代測評方式等關鍵要點,企業能夠有效提升AI應用的安全性和可靠性。
1. 選擇合適的評估器:權衡線上線下
目前推薦使用大模型作為評估器,但在選擇大模型時,需考慮線上和線下的差異。如果企業自行部署大模型,如使用Deepseek作為評估器,與使用線上的GPT存在區別,應根據具體應用需求進行選擇。對于對數據隱私和安全性要求較高的應用,可能更適合使用自行部署的大模型;而對于對實時性要求較高、對數據隱私要求相對較低的應用,則可選擇線上的大模型。
2. 生成針對性的測試數據:基于威脅分析
通過威脅分析,明確應用面臨的風險,根據風險清單和威脅分級結果,生成針對性的測試數據。測試數據應盡可能覆蓋應用可能面臨的各種風險場景,確保測評的全面性和有效性。以金融類AI為例應重點考慮數據泄露、欺詐風險等場景,生成相應的測試數據,以準確評估應用在實際使用中的風險。
3. 自定義適配的指標:貼合實際風險擬定指標
根據應用的特點和面臨的風險,自定義評估指標??赏ㄟ^繼承和擴展已有指標函數的方式,編寫適合應用場景的指標。在自定義指標時,應確保指標具有可衡量性、相關性和可操作性,能夠準確反映應用的風險狀況。對于一個電商推薦智能體,可自定義推薦準確性、推薦多樣性等指標,以評估其在業務場景中的表現,為優化推薦策略提供依據。
4. 持續迭代測評方式:適應變化
由于模型和應用不斷迭代,測評方式也應持續更新。通過工程化的方式,將測評過程自動化、規范化,確保測評結果的準確性和可靠性。建立定期的測評機制,每次模型或應用更新后,都進行全面的風險測評,及時發現并解決新出現的風險問題,使測評工作與AI應用的發展保持同步。
六、AI應用風險測評的實施步驟
評估大型語言模型(LLM)應用的三個主要步驟:診斷與設計、數據準備和執行評估。在“診斷與設計”階段,確定評估目標、范圍和指標;在“數據準備”階段,收集輸入和輸出數據,清洗和轉換原始數據,生成測試數據,并擬定指標測評函數;在“執行評估”階段,運行評估程序,分析結果,識別問題,并根據結果優化和改進LLM應用,將其集成到CI/CD流程中進行持續監控。
AI風險測評是保障AI應用可信的核心環節,核心價值是 :提高 LLM 系統可信、降低 LLM 應用風險、確保LLM系統合規性。當前AI應用風險多樣,測評面臨諸多挑戰,而業界現有的測評方法各有利弊。在未來,隨著AI技術的不斷發展,風險測評也需持續創新和完善,以應對新的風險挑戰,推動企業的AI應用在可信的軌道上健康發展。