生成式 AI 面臨的的主要安全風險以及解決策略
生成式AI 的主要安全風險、威脅和挑戰包括:
- 即時注入攻擊
- 人工智能系統和基礎設施安全
- 不安全的AI生成代碼
- 數據中毒
- 人工智能供應鏈漏洞
- 人工智能生成的內容完整性風險
- 影子人工智能
- 敏感數據泄露或泄漏
- 訪問和身份驗證漏洞
- 模型漂移和性能下降
- 治理和合規問題
- 算法透明度和可解釋性
為什么 生成式AI 安全很重要?
生成式AI 安全性非常重要,因為它可以確保 生成式AI 系統能夠在整個組織內安全、可靠、負責任地部署。
更具體地說:生成式人工智能正在迅速被采用,速度快得超過了大多數組織對其的保障。
根據麥肯錫的調查《人工智能現狀:企業如何重塑以捕捉價值》, 71% 的受訪者表示,其企業至少在一項業務職能中定期使用生成式人工智能。這一比例高于 2024 年初的 65% 和 2023 年的 33%。
這才是核心問題。生成式AI 不僅能提升生產力,還能重塑數據流動方式、系統交互方式以及決策制定方式。隨之而來的是更廣泛、更動態的攻擊面。
Gartner 公司表示:“到 2027 年,超過 40% 的人工智能相關數據泄露將因跨境不當使用生成人工智能 (生成式AI) 而造成。”
- Gartner 新聞稿,“Gartner 預測,到 2027 年,40% 的 AI 數據泄露將源于跨境 生成式AI濫用”,2025 年 2 月 17 日。
即時注入攻擊
即時注入攻擊會操縱人工智能系統的輸入,旨在使模型產生有害或非預期的輸出。
他們通過在提示中嵌入惡意指令來實現這一點。人工智能會像處理任何正常輸入一樣處理該提示。但它會遵循攻擊者的意圖。
例如:提示可能會誘使人工智能泄露敏感信息或繞過安全控制。這是因為許多模型在沒有嚴格輸入驗證的情況下就能響應自然語言。
這在交互式工具中尤其危險。想想客服聊天機器人。攻擊者可能會潛入隱藏命令。聊天機器人可能會在不知情的情況下提取私人賬戶信息。
攻擊并非總是直接的。在某些情況下,攻擊者會操縱模型所依賴的數據。這些間接的即時注入會改變 AI 所提取的 Web 內容或數據庫。
這意味著:模型會隨著時間的推移吸收不良信息。這會導致有偏差、扭曲或不安全的輸出——即使之后沒有惡意提示。
對策:
- 約束模型行為:在系統提示中定義嚴格的操作邊界。明確指示模型拒絕任何試圖修改其行為的行為。將靜態規則與動態檢測相結合,實時捕獲惡意輸入。
- 強制輸出格式:限制模型響應的結構。使用預定義模板并在顯示輸出之前進行驗證——尤其是在開放式生成可能被濫用的高風險工作流程中。
- 驗證和過濾輸入:使用多層輸入過濾。其中包括正則表達式、特殊字符檢測、基于 NLP 的異常檢測以及拒絕 Base64 或 Unicode 變體等混淆內容。
- 應用最小權限:限制模型的訪問權限。使用基于角色的訪問控制(RBAC),限制 API 權限,并將模型與敏感環境隔離。安全存儲憑證并定期審核訪問。
- 敏感操作需人工審批:為高影響決策添加人工審核步驟。這包括任何涉及系統變更、外部命令或數據檢索的操作。使用風險評分和多步驟驗證來指導何時需要人工介入。
- 隔離外部數據:將用戶生成的內容或第三方內容與模型內部指令分開。在使用外部輸入影響模型行為之前,請標記這些輸入并驗證其可信度。
- 模擬攻擊:定期使用真實案例進行對抗性測試。紅隊演練和自動化攻擊模擬可以幫助攻擊者搶在對手之前發現漏洞。
- 監控 AI 交互:記錄會話間的輸入和輸出。注意異常的提示結構、意外的輸出模式以及偏離模型預期角色的行為
- 保持防御措施的時效性:隨著威脅形勢的變化,更新您的提示工程、檢測邏輯和模型限制。在實施更改之前,請在沙盒環境中進行測試。
- 訓練模型識別惡意輸入:使用對抗訓練和實時輸入分類器來提升模型檢測危險提示的能力。基于人工反饋的強化學習可以幫助模型逐步完善這一能力。
- 教育用戶:確保用戶了解快速注入的工作原理。教會他們識別可疑行為,并負責任地與人工智能系統互動。
人工智能系統和基礎設施安全
安全性較差的 生成式AI 基礎設施會帶來嚴重風險。如果沒有得到妥善保護,API、插件和托管環境都可能成為入口點。
例如:如果 API 缺乏適當的身份驗證或輸入驗證,攻擊者可能會獲取敏感功能的訪問權限。這可能意味著篡改模型輸出,甚至觸發拒絕服務事件。
這為什么重要?
因為這些漏洞不僅影響系統正常運行時間,還會影響人們對 生成式AI系統的整體信任。
訪問控制失效、集成不安全以及隔離不足都可能導致數據泄露,甚至導致未經授權的模型操縱。
這對于處理敏感數據的行業尤其重要,例如醫療保健、金融或個人數據平臺。
簡而言之:保障基礎設施安全至關重要。沒有它,系統的其余部分就不可信。
對策:
- 增強的身份驗證協議:使用多重身份驗證和強加密技術,確保對 生成式AI API、插件接口和系統組件的訪問安全。這有助于防止未經授權使用模型功能或暴露敏感端點。
- 全面的輸入驗證:驗證所有輸入(無論是來自用戶、應用程序還是上游服務),以降低針對 生成式AI工作流的提示注入和其他基于輸入的攻擊的風險。
- 定期安全審計:針對 生成式AI特定的基礎設施進行持續的審計和滲透測試。優先考慮那些配置不當可能導致模型篡改或數據泄露的 API、插件和編排層。
- 異常檢測系統:實施監控工具,對正常的 生成式AI操作(例如模型查詢、插件活動或資源使用情況)進行基準測試,并對可能表明存在泄露或濫用的偏差發出警報。
- 安全培訓和意識:對開發人員和操作員進行 生成式AI特定風險(例如提示注入或不安全的模型端點)的培訓,并確保安全性嵌入到模型部署和集成工作流程中。
- 事件響應計劃:通過將這些場景集成到事件響應計劃和桌面演習中,為特定于 生成式AI的事件(例如模型誤用、插件泄露或 API 濫用)做好準備。
- 數據加密:加密 生成式AI系統使用的所有敏感數據,包括訓練數據、API 響應和插件通信。這可以保護存儲和傳輸過程中的機密性,尤其是在使用第三方服務時。
不安全的AI生成代碼
AI 生成的代碼通常用于節省時間。許多人認為這是一條捷徑——開發速度更快,而且質量不會受到影響。
但事情并不總是這樣。這些工具可能會帶來嚴重的安全問題。而開發人員甚至可能沒有意識到這一點。
方法如下:
AI 編程助手基于大型訓練數據集生成輸出。這些數據集通常包含來自開源存儲庫的公共代碼。但其中許多代碼從未經過安全審查。如果存在不安全的模式,模型可能會復制這些模式。而且在很多情況下,情況確實如此。
為什么這很危險?
因為漏洞可能在早期就已嵌入軟件中。不安全的代碼可能會調用過時的軟件包、忽略輸入驗證或錯誤處理內存。它也可能編譯并正常運行。
但在表面之下,它卻十分脆弱。攻擊者正是尋找這種弱點。
事實上,這些模型生成具有已知錯誤和漏洞的代碼并不少見。
在CSET 評估中,包括 GPT-4 和 Code Llama 等開源工具在內的五種主流模型生成的代碼片段中,近一半存在至少一個安全相關缺陷。其中一些缺陷嚴重到足以導致緩沖區溢出或未經授權的內存訪問。
這些不僅僅是不好的做法——它們還是可利用的切入點。
這是最棘手的部分。許多開發人員對 AI 生成的代碼過于信任。在CSET 的研究中,大多數參與者認為這些代碼是安全的——即使事實并非如此。這就是自動化偏見。它會導致不安全的代碼被直接復制到生產環境中。
透明度是另一個問題。開發人員無法檢查模型是如何做出決策的,也無法了解它為什么會提出特定的模式。即使被提示“注意安全”,一些模型仍然會輸出有風險的代碼。另一些模型會返回無法編譯或驗證的部分函數。
這使得自動化審查更加困難。如果沒有審查,不良代碼就可能被漏掉。此外,還存在反饋風險。不安全的人工智能生成的代碼有時會被發布到開源存儲庫。之后,它可能會被重新用于訓練數據。這就形成了一個循環——今天的糟糕代碼會影響明天的模型行為。而這正是讓情況變得更糟的原因。
盡管模型在生成代碼方面越來越優秀,但它們在生成安全代碼方面并不總是表現得更好。許多模型仍然優先考慮功能性,而不是安全性。
這很重要,因為AI生成的代碼不僅僅是一個工具。它改變了代碼的編寫、審查和復用方式。除非這些變化得到充分考慮,否則它們會在整個軟件生命周期中帶來風險。
對策:
- 不要盲目相信輸出結果:對 AI 生成的代碼要像審查初級開發人員的貢獻一樣進行審查。人工審核仍然必不可少。
- 安全機制提前:在開發生命周期的早期階段集成安全檢查,最好是在開發者的 IDE 中。在開發初期發現問題比事后再清理更快捷、更經濟。
- 盡可能使用形式化驗證工具:這些工具可以自動檢測特定類型的錯誤,并減少對人工檢查的依賴。但請記住:沒有完美的工具。應使用多種方法。
- 使用安全的訓練數據和基準: AI開發者應該從數據集中過濾掉已知的不安全模式。他們不僅應該評估模型的運行效果,還應該評估其安全性。
- 教育開發人員:確保他們理解“有效代碼”并不總是意味著“安全代碼”。提高對自動化偏見的認識,并鼓勵團隊以合理的懷疑態度看待人工智能生成的代碼。
數據中毒
數據中毒涉及惡意改變用于構建人工智能模型的訓練數據,導致其行為不可預測或惡意。
通過向數據集注入誤導性或有偏見的數據,攻擊者可以影響模型的輸出,使其偏向某些操作或結果。這可能導致錯誤的預測、漏洞或有偏見的決策。
防止數據中毒需要安全的數據收集實踐和監控訓練數據集中的異常模式。
在 生成式AI系統中,數據中毒尤其難以檢測,因為中毒樣本通常數量少,但影響卻很大。只需少量被篡改的樣本,就可能使模型的行為朝著特定方向轉變。
一些數據中毒攻擊旨在改變模型對特定提示的響應方式。另一些攻擊則嵌入僅在特定條件下激活的隱藏觸發器。這就是為什么這是一個問題。
許多 生成式AI系統會根據第三方來源或用戶交互進行重新訓練或微調。因此,攻擊者無需訪問原始訓練流程,就可以毒害后續傳入的數據。由于這些系統經常持續更新,中毒輸入會慢慢累積,這使得在行為變化引發問題之前發現它們變得更加困難。
并非所有的中毒攻擊都試圖破壞模型。有些攻擊會在保持輸出功能的同時引入偏差。
例如:一個情緒模型可能被訓練成偏向某個群體或品牌。結果看起來正確,但這種偏差是故意造成的。
重要提示:生成式AI系統在大多數情況下通常表現正常。正因如此,中毒行為才如此難以察覺。
標準性能測試可能無法發現這個問題。相反,組織需要針對邊緣情況和對抗性輸入進行有針對性的測試。
對策:
- 保障AI 應用程序開發生命周期的安全:這包括維護軟件供應鏈的安全,該供應鏈本身涵蓋了開發過程中所需的模型、數據庫和數據源。確保這些元素的安全有助于防止數據中毒。
- 了解、控制和管理數據路徑:通過確保您了解數據如何在系統中移動,您可以防止未經授權的訪問或操縱,其中包括防止數據中毒。
- 實施基于身份的訪問控制:應用基于身份的嚴格訪問控制,特別是在訓練數據等敏感區域,可以幫助防止未經授權的注入中毒數據的企圖。
- 檢測并刪除中毒或不良的訓練數據:建立流程來檢測數據中可能表明篡改或中毒的異常,并確保刪除或更正此類數據。
人工智能供應鏈漏洞
許多組織依賴第三方模型、開源數據集和預訓練的 AI 服務。這帶來了諸如模型后門、數據集中毒和訓練流程受損等風險。
例如:模型竊取,又稱模型提取,是指攻擊者竊取已訓練的人工智能模型的架構或參數。攻擊者可以通過查詢模型并分析其響應來推斷其內部工作原理。
簡而言之,竊取的模型可以讓攻擊者繞過訓練高質量人工智能系統所需的努力和成本。
但模型盜竊并不是唯一的問題。
生成式AI系統通常依賴于復雜的軟件包、組件和基礎架構鏈,這些組件和基礎架構可能在多個位置被利用。單個受感染的依賴項就可能允許攻擊者竊取敏感數據或將惡意邏輯注入系統。
例如: 2022 年 12 月,針對PyTorch-nightly軟件包的供應鏈攻擊充分展現了被入侵的軟件庫的危險性。攻擊者利用惡意依賴項收集和傳輸環境變量,從而暴露了受影響計算機上存儲的機密信息。
它并不僅限于軟件庫。基礎設施漏洞(例如配置錯誤的 Web 服務器、數據庫或計算資源)也同樣危險。攻擊者只要攻陷任何底層組件,就可能干擾數據流、劫持計算作業或泄露敏感信息。如果系統缺乏適當的訪問控制,這種風險可能會蔓延至各個服務和組件。
此外,還有來自數據集中毒的風險。攻擊者可以修改數據或將數據注入訓練流程,從而巧妙地操縱模型行為。
這并非只是假設。有毒的輸入會隨著時間的推移影響模型輸出,尤其是在能夠適應新數據的 生成式AI系統中。
更糟糕的是:如果基礎模型已經受到威脅,任何繼承自該基礎模型的微調模型也可能延續這些問題。預訓練期間插入的后門可能會悄無聲息地持續存在,除非被發現并修復。
第三方組件也可能因實施不當而產生風險。2023 年 3 月,ChatGPT 使用的 Redis 連接器庫中存在一個漏洞,導致橫向權限提升。不恰當的隔離機制導致用戶能夠查看其他用戶會話的數據。
這一事件凸顯了即插即用組件即使被廣泛采用,如果不能安全集成,也會帶來嚴重的安全隱患。
對策:
- 跟蹤并審查依賴項:定期審核第三方軟件包、庫和插件。密切關注集成到模型訓練或推理工作流程中的工具。被入侵的組件可能被用于竊取數據或篡改模型行為。
- 驗證數據和模型完整性:使用加密哈希和數字簽名來確保數據集和模型文件未被更改。這有助于在部署之前檢測中毒嘗試或未經授權的更改。
- 保護您的數據管道:限制訓練數據的來源。應用監控措施,監控數據內容或結構的異常變化。持續進行再訓練的 生成式AI系統尤其容易受到隱蔽的長期中毒攻擊。
- 強化基礎架構和連接器:通過強大的身份驗證和訪問控制來保護 API、托管環境和模型服務平臺。即使是間接組件(例如緩存層或連接器庫)也可能帶來風險。
- 將安全性集成到模型生命周期工作流程中:像對待其他軟件開發流程一樣對待模型開發、微調和部署。在每個階段都融入漏洞掃描、訪問檢查和依賴項審查。
- 制定事件響應計劃:定義調查可疑模型行為的流程。如果發生供應鏈攻擊,您需要一種方法來隔離系統、確認完整性并快速回滾受損組件。
人工智能生成的內容完整性風險
生成式AI模型可能會引入偏見、產生誤導性內容或生成完全錯誤的信息。這對于安全來說是一個問題,但對于信任來說也是一個問題。
資料來源:https://www.bmj.com/content/372/bmj.n304
原因如下: 這些模型通常以自信流暢的語氣呈現輸出——即使信息錯誤或存在偏見。這使得用戶更難發現錯誤,也更容易被攻擊者利用。
例如:一個基于有偏見的數據訓練的模型,可能會在招聘摘要中始終偏向某一特定人群。或者,它會生成看似真實但實際上并非如此的醫療證明。這些不僅僅是不準確的信息,它們還會影響決策,有時甚至會以至關重要的方式產生影響。
攻擊者知道這一點。
即時操縱可能會觸發降低信任的輸出。它可能是攻擊性語言,也可能是精心設計的錯誤信息內容。在某些情況下,生成式AI系統已被用于生成網絡釣魚和社會工程的材料。
需要注意的是:并非所有問題都源于惡意。有些問題源于模型設計,有些則源于糟糕的訓練數據。 無論哪種方式,有缺陷的輸出都會帶來真正的風險——尤其是在受監管或高風險的環境中。
這就是為什么對齊和幻覺控制很重要。對齊有助于模型保持在規范的范圍內,從而使輸出符合預期目標和規范。幻覺控制有助于減少虛構的細節。它們共同維護了內容的完整性,并有助于防止 生成式AI成為錯誤信息的來源。
對策:
- 控制訓練數據中的偏差:在訓練或微調之前,審查并篩選數據集。密切關注人口統計代表性和已知的偏差來源。
- 通過人工監督驗證輸出:對于影響重大的用例,尤其是在決策可能影響健康、安全或個人權利的情況下,使用人工參與審查。
- 調整對齊:微調模型以遵循預期目標和規范。這有助于減少有害、偏離主題或操縱性的輸出。
- 限制提示操作的暴露:限制敏感環境中的提示訪問。監控可能存在濫用行為的模式,例如試圖觸發帶有偏見或不安全內容的行為。
- 監控虛假信息:添加檢查,標記未經證實的聲明或虛假信息。這對于受監管或高信任度的域名尤其重要。
- 設定清晰的模型使用邊界:為每個模型定義合適的用例。應用控制措施,防止其在不受支持或高風險的環境中被使用。
- 在邊緣條件下進行測試:使用對抗性輸入來評估模型在非典型情況下的表現。這有助于發現常規測試中未發現的風險。
影子人工智能
對人工智能能力的渴求已經催生了影子人工智能,就像影子IT是邁向云和軟件即服務 (SaaS) 轉型的第一步一樣。安全領導者需要再次引領這一進程。
-Palo Alto Networks,《Unit 42 威脅前沿:為新興人工智能風險做好準備》
影子人工智能是指組織內的員工或個人在沒有 IT 或安全團隊監督的情況下未經授權使用人工智能工具。
這些未經批準的工具雖然經常用于提高生產力,但絕對會暴露敏感數據或造成合規性問題。不受管理的 AI 采用會帶來與早期 SaaS 采用類似的風險。
員工可能會使用外部AI工具來總結會議記錄、撰寫電子郵件或生成代碼。雖然這些工具的意圖通常無害,但如果沒有采取任何安全措施,它們可能會無意中處理機密數據,例如客戶信息、知識產權、內部通信等。
當這些工具在正式審查和采購渠道之外使用時,沒有人會驗證它們是否符合組織的安全性、合規性或隱私標準。這就造成了盲點。
而且,由于安全和IT團隊通常無法了解正在使用哪些工具或訪問哪些數據,這種缺乏監督的情況使得追蹤數據移動、防止數據泄露或實施控制變得十分困難。此外,不安全的AI工作流程或不良的數據處理實踐也增加了數據泄露的風險。
換句話說:影子人工智能允許在缺乏基礎治理和風險控制的情況下采用人工智能,從而削弱了組織的安全態勢。
人工智能在日常工作中的應用越深入,主動彌補這些差距就越重要。否則,人工智能的使用增長速度將超過組織管理風險的能力。
對策:
- 制定明確的人工智能使用政策:設定可使用哪些工具、允許使用哪些類型的數據以及員工應如何評估人工智能服務的界限。
- 監控未經授權的 AI 使用:跟蹤用戶、設備和網絡的活動,以檢測未經批準的 AI 工具并評估潛在的風險。
- 定義 AI 治理角色:分配批準工具、制定政策和執行合規性的責任,以確保所有權明確且一致。
- 采用前審查工具安全性:要求對新的人工智能服務進行正式的風險評估,以確保它們符合安全、隱私和合規標準。
- 保持持續監督:使用實時監控和定期審計來跟上不斷發展的人工智能使用速度并防止無管理的蔓延。
敏感數據泄露或泄漏
生成式AI系統可能會無意中泄露機密信息,包括個人數據、商業機密或訓練期間使用的其他敏感輸入。這可以通過多種方式實現:
這種現象可以通過過度擬合表現出來,即模型生成的輸出與其訓練數據過于緊密地聯系在一起。或者通過諸如提示注入攻擊之類的漏洞,操縱模型來泄露敏感信息。
這之所以會成為一個重大的潛在威脅,是因為 生成式AI系統通常會處理大量數據,其中包括專有商業信息或個人信息。這些信息屬于敏感信息,不應被披露。
此類數據泄露可能導致財務損失、聲譽損害和法律后果。
此外:生成式AI系統的多功能性和復雜性意味著它們可以訪問和綜合跨多個數據點的信息——無意中以泄露機密見解的方式將它們組合起來。
例如:一個基于敏感醫療記錄訓練的 生成式AI模型可能會生成無意中包含個人身份信息 (PII)的輸出,即使這并非查詢的意圖。同樣,如果金融服務中使用的模型沒有得到妥善保護,也可能會無意中泄露商業機密或戰略信息。
對策:
- 匿名化敏感信息:差異隱私等技術可以應用于訓練數據,以防止人工智能學習或泄露可識別信息。
- 實施嚴格的訪問控制:規定誰可以與人工智能系統交互以及在什么情況下交互。
- 定期測試模型是否存在漏洞:持續掃描可能被利用來提取敏感數據的弱點。
- 監控外部 AI 的使用情況:跟蹤 AI 系統的部署方式和位置,以確保敏感數據不會泄露到組織邊界之外。
- 確保 AI 應用程序開發生命周期:在 AI 模型的整個開發和部署過程中實施安全最佳實踐,從根本上防范漏洞。
- 控制數據路徑:了解并保護系統中的數據流,以防止未經授權的訪問或泄漏。
- 掃描和檢測敏感數據:使用先進的工具來檢測和保護網絡中的敏感信息。
訪問和身份驗證漏洞
當威脅行為者繞過或濫用身份控制進入 生成式AI系統或其背后的基礎設施時,就會發生這些攻擊。
這些策略并不新鮮。但在 生成式AI環境中,風險更高。
為什么?
因為 生成式AI平臺通常連接到內部數據、生產 API 和外部服務。因此,如果攻擊者獲得訪問權限,他們不僅可以看到數據,還可以操縱模型、輸出和下游系統。
工作原理如下:大多數 生成式AI設置包括 API、Web 服務以及跨存儲、推理引擎、數據庫和前端應用的集成。它們通過憑證(例如令牌、密鑰或服務帳戶)連接在一起。如果其中任何一個被暴露,攻擊者就可以冒充合法用戶或服務。
例如:攻擊者可能會從模型推理 API 中竊取令牌。該令牌可能被用來發送惡意提示或提取過去的輸出歷史記錄。或者,他們可能會入侵連接到云存儲的插件,并利用該插件上傳有害數據或獲取機密文件。
其他攻擊始于泄露管理員憑據。這些攻擊可能來自網絡釣魚或憑據重用。
一旦攻擊者進入,他們就可以升級訪問權限或改變模型的行為方式。
注意:在 生成式AI環境中,會話和令牌處理尤為敏感。許多模型依賴于上下文。如果會話令牌被重復使用或存儲不安全,攻擊者可能會跨會話持續存在或訪問之前的交互。
另一個常見問題是權限過高。服務帳戶和測試環境通常擁有超出實際需要的訪問權限。如果這些憑證在生產環境中重復使用,可能會造成嚴重損害。
最終:一個薄弱環節(例如被遺忘的令牌或過度許可的 API)可能會為整個系統的入侵打開大門。
對策:
- 實施基于身份的訪問控制:要求在每個訪問點進行身份驗證,包括 API、服務和用戶界面。
- 使用強身份驗證:應用多因素身份驗證和短期令牌來限制暴露。
- 應用最小權限:限制賬戶和服務的訪問權限,使其僅用于其所需。避免授予廣泛或默認的訪問權限。
- 監控異常:定期檢查身份驗證日志。查找異常活動,例如位置變更、重復使用令牌或異常 API 行為。
- 安全憑證:避免對令牌或密鑰進行硬編碼。使用安全保管庫或密鑰管理系統妥善存儲它們。
模型漂移和性能下降
當 生成式AI模型隨著時間的推移變得不那么準確或可靠時,就會發生模型漂移。這通常是因為模型開始使用未經訓練的數據,或者使用自訓練以來發生變化的數據。
這有什么關系?
因為 生成式AI系統并非停留在實驗室中,而是在真實環境中運行。這包括不斷變化的用戶行為、更新的內容或不斷變化的業務條件。如果模型無法適應,性能就會下降,進而影響決策。
它看起來是這樣的:如果沒有更新,法律摘要模型可能會遺漏新術語。如果產品發生變化而模型保持不變,支持聊天機器人可能會給出錯誤答案。即使是輸入的微小變化也可能導致性能下降。這會導致混亂、結果不佳,在某些情況下還會帶來監管或法律風險。
重要的:在閉源模型中,漂移尤其難以追蹤。如果無法了解訓練數據或模型變化,就很難理解問題所在,也很難找到解決辦法。
還有安全層面的問題。
漂移會增加出現幻覺和錯位的可能性。如果模型看到不熟悉的輸入,它可能會猜測。有時它會出錯,但聽起來很有把握。在其他情況下,它可能會忽略內置規則,或生成違反預期的輸出。
換句話說:如果偏差未被發現,它不僅會降低質量,還會造成運營風險、決策問題和聲譽受損。
對策:
- 定期監測模型性能:將輸出結果與已知基準或 KPI 進行比較。留意可能預示偏差的漸進式變化。
- 驗證上游數據管道:確保輸入模型的數據準確、結構化且與模型預期一致。
- 使用新數據重新訓練:定期使用最新數據更新模型。這有助于模型與不斷變化的輸入保持一致。
- 使用反饋循環:將實際使用數據納入模型評估。持續的反饋可以隨著時間的推移提高相關性。
- 使用后備模型或集成模型:當置信度得分較低時,依賴輔助模型。這有助于在主模型出現偏差時保持準確率。
- 實施版本控制和回滾計劃:備份過去的模型并跟蹤其隨時間的變化。如果出現性能問題,請快速回滾。
- 引入領域專家:當檢測到偏差時,專家審查有助于解釋輸出是否仍然符合現實世界的需求。
治理和合規問題
生成式AI系統發展迅速,但管理它們所需的治理卻往往滯后。
這就是為什么這是一個問題:這些工具可以處理敏感數據、自動化決策,并生成影響人員和系統的內容。如果沒有監管,它們會帶來法律、運營和聲譽方面的風險。
換句話說:管控看不見摸不著的東西非常困難。許多組織缺乏對正在使用的模型、接觸的數據以及它們在生產中的行為方式的可見性。
當模型以不同的方式部署時,事情會變得更加復雜。基于 API 的模型可能有一套要求。內部托管的開源模型可能需要另一套要求。每種設置都需要各自的控制措施,并且可能根據使用地點和方式受到不同的監管。
這使得一致性變得困難。許多 生成式AI模型也難以審計。它們通常像黑匣子一樣工作。并不總是清楚哪些數據影響了輸出結果,或者決策是如何做出的。這在招聘、醫療保健或金融等敏感領域尤其危險——這些領域的法律可能要求證明其公平性、透明度或非歧視性。
培訓又增加了一層。如果微調涉及內部數據,則存在泄露個人或專有信息的風險——尤其是在沒有明確政策或安全流程的情況下。
而且它不僅限于內部使用。面向公眾的 生成式AI工具可能會被探測或操縱。如果沒有防護措施,它們可能會泄露數據或生成有害內容。這將使組織面臨違反合規性的風險,甚至更糟的是,引發公眾的強烈反應。
對策:
- 正在使用的庫存模型:識別整個組織的所有 生成式AI工具,包括實驗或影子項目。
- 記錄數據源:追蹤數據在訓練、微調和推理中的使用情況。標記任何敏感或受監管的內容。
- 制定模型批準政策:定義哪些可以批準,哪些不可以批準,以及如何做出決策。
- 跨團隊共享所有權:法律、合規、安全和工程應在治理方面進行協調。
- 監控模型行為:注意漂移、偏差或誤用——尤其是在面向客戶或影響較大的用例中。
- 遵守法規:定期審查法律和框架。AI合規性是一個不斷變化的目標。
算法透明度和可解釋性
生成式AI模型通常很復雜。它們的輸出結果可能難以追蹤。而且在很多情況下,我們并不清楚某個決策是如何或為何做出的。
這就是透明度和可解釋性的作用所在。
它們是相關的——但并不相同。
透明度關乎可見性。這意味著了解模型的工作原理、訓練數據以及其局限性。它還包括訪問文檔、性能指標和輸入/輸出行為。
可解釋性則更進一步。它側重于理解。人類能否以一種合理的方式來解讀模型的決策?
這很重要。
如果人工智能系統拒絕貸款或標記健康狀況,用戶會想知道原因。如果它無法自我解釋,就會在操作、法律和倫理方面產生問題。
這就是為什么它如此重要:如果沒有透明度,偏見就更難被發現。如果模型是基于偏差數據進行訓練的,它可能會強化不公平的結果。但如果沒有人能夠洞察內部,就無法審核或糾正這種行為。
缺乏可解釋性也使得系統更難改進。開發人員無法調試他們不理解的內容。用戶也可能不再信任系統——尤其是在高風險的環境中。
這也是一個隱私問題。有些模型會記住部分訓練數據。如果其中包含敏感信息,則可能會在推理過程中泄露。如果模型的訓練過程不透明,這些風險可能會被忽視。
簡而言之:如果您無法解釋模型在做什么,您就無法保護它、管理它或期望其他人信任它。
對策:
- 記錄正在使用的每個模型:包括其功能、訓練數據源和已知的限制。
- 應用可解釋性技術:根據用例使用特征重要性、顯著性圖或自然語言論證等方法。
- 透明度設計:闡明模型看到什么、可以輸出什么以及涉及人工監督的地方。
- 持續監控輸出:注意偏見、漂移或異常行為,并在必要時觸發審查。
- 與法律和合規團隊保持一致:確保透明度實踐支持監管要求。
- 避免在敏感區域使用黑匣子模型:或者在必須使用時添加護欄以降低風險。
- 使解釋有意義:目標不僅僅是生成解釋,而是幫助人們理解模型正在做什么。