LLM自主學(xué)習的隱患
大型語言模型(LLM)已經(jīng)從最初只能被動回應(yīng)基本用戶提示或上網(wǎng)搜索生成內(nèi)容的簡單聊天機器人,發(fā)展成為能夠訪問數(shù)據(jù)庫和業(yè)務(wù)應(yīng)用、與外部系統(tǒng)交互以獨立執(zhí)行復(fù)雜任務(wù)并做出業(yè)務(wù)決策的強大工具。
這一轉(zhuǎn)變主要得益于新興的互操作性標準,如模型上下文協(xié)議(MCP)和智能體到智能體(A2A)通信。
MCP旨在提供一種標準化的代理與工具交互方式,使LLM(如Claude和GPT)能夠無縫集成到API、數(shù)據(jù)源和外部系統(tǒng)中。
A2A是谷歌最近發(fā)布的,用于智能體到智能體的通信,允許獨立的智能體交換目標、共享上下文并觸發(fā)行動。
企業(yè)中的過度自主性問題
在企業(yè)中,LLM智能體的過度自主性正成為一個日益嚴重的問題。
具有過度自主性的智能體可能會破壞企業(yè)安全的基本原則。例如,由于輸入不明確、被操縱或存在對抗性,一個具有過度自主權(quán)或功能的LLM可能會執(zhí)行未經(jīng)授權(quán)的操作,影響企業(yè)的完整性。
許多關(guān)鍵功能,特別是在醫(yī)療和金融領(lǐng)域,已經(jīng)將LLM納入其核心系統(tǒng),影響著數(shù)百萬用戶。LLM的過度自主性導(dǎo)致的單個錯誤或偏見輸入可能會造成長期后果。企業(yè)經(jīng)常面臨黑箱LLM的問題,其內(nèi)部工作原理不透明,導(dǎo)致用戶無法信任其輸出或驗證結(jié)果的正確性,進一步加劇了風險。
過度使用自主性LLM增加了對其輸出的過度依賴風險,這可能會削弱人類的批判性思維,這種過度依賴可能導(dǎo)致所謂的“過程債務(wù)”,即由于人類參與減少,錯誤和偏見無法被檢測到,這在醫(yī)學(xué)和金融等高風險領(lǐng)域可能產(chǎn)生嚴重后果。
將MCP和A2A集成到AI工作流程中會創(chuàng)造新的供應(yīng)鏈攻擊模式,因為LLM會自主與外部系統(tǒng)交互而缺乏充分監(jiān)控。攻擊者不必直接入侵模型本身,而是可以入侵任何為其提供輸入的服務(wù)。特別是A2A,它管理著分布式和非確定性的代理交互,減少了洞察請求出錯位置的能力,這使得識別錯誤或找到惡意干預(yù)變得更加困難。
導(dǎo)致過度自主性的因素
LLM過度自主性的原因有幾個:
過度功能:智能體可能擁有訪問API或插件的權(quán)限,這些API或插件的功能超出了其操作所需。
過度權(quán)限:LLM被賦予了超出其需求的更高訪問權(quán)限,允許它們更改、刪除或訪問敏感信息。
過度自主:LLM被設(shè)計為自我改進并自主決定,無需人類干預(yù),增加了不可控行為的可能性。
訓(xùn)練數(shù)據(jù)偏見:有偏見或不平衡的訓(xùn)練數(shù)據(jù)會導(dǎo)致模型學(xué)習到有偏見的表示,從而基于這些偏見做出自主決策。
對訓(xùn)練數(shù)據(jù)過擬合:當LLM過度精確地學(xué)習訓(xùn)練數(shù)據(jù)時,包括噪聲和異常值,會導(dǎo)致其無法泛化到新輸入,這導(dǎo)致模型在新情況下表現(xiàn)不佳,并助長了過度自主性。
模型復(fù)雜性:LLM的復(fù)雜結(jié)構(gòu)和大量參數(shù)會產(chǎn)生難以控制的不想要的行為,這種復(fù)雜性可能導(dǎo)致模型采取不想要的行為,從而導(dǎo)致過度自主性。
過度自主LLM的危險
威脅行為者正利用授予LLM的過度自主性,采用各種方法:
直接提示注入:攻擊者操縱LLM模型,使其忽視其審核政策,轉(zhuǎn)而執(zhí)行他們的指令,使用欺騙性提示誘騙LLM泄露機密信息或執(zhí)行危險命令。
間接提示注入:攻擊者將惡意命令插入外部數(shù)據(jù)源(如網(wǎng)站或文檔)中,供AI讀取,這種攻擊通常使其他用戶面臨網(wǎng)絡(luò)LLM攻擊。
數(shù)據(jù)投毒:攻擊者將偏見、弱點和對抗性輸入引入LLM訓(xùn)練模型中,玷污模型的完整性,生成虛假、有偏見或惡意的輸出。
自主性利用:具有不受控制的自主性的LLM可能被攻擊者利用來執(zhí)行超出其計劃范圍的操作,導(dǎo)致安全漏洞或運營干擾。
泄露敏感訓(xùn)練數(shù)據(jù):對手利用提示控制LLM泄露敏感信息,如專有數(shù)據(jù)和系統(tǒng)密碼。
緩解LLM過度自主性的策略
實施AI評估器:企業(yè)可以通過AI評估框架確保AI系統(tǒng)的受控權(quán)限,該框架提供自動化協(xié)議和指南來管理AI行為,這確保系統(tǒng)保持在設(shè)定的安全邊界內(nèi),促進可靠和可信的AI環(huán)境。
AI評估器持續(xù)監(jiān)控LLM交互,以檢測未經(jīng)授權(quán)的活動或異常,并標記超出其計劃范圍的AI代理操作案例,它們審核AI權(quán)限,以防止LLM對敏感系統(tǒng)擁有不當訪問權(quán)限,它們可以通過滲透測試和模擬提示注入攻擊來檢測和評估漏洞,使企業(yè)內(nèi)的AI安全更加健壯。
提高訓(xùn)練數(shù)據(jù)質(zhì)量:任何LLM的行為都基于其訓(xùn)練數(shù)據(jù)。企業(yè)必須專注于策劃多樣化、代表性和無偏見的的數(shù)據(jù)集。數(shù)據(jù)清洗、預(yù)處理和增強方法可以消除異常值、錯誤或不適當?shù)男畔ⅲ鼓P湍軌驈恼_和相關(guān)的信息中學(xué)習。
采用OWASP框架進行AI安全:隨著LLM在軟件開發(fā)中占據(jù)穩(wěn)固地位,OWASP指南為企業(yè)提供了一種系統(tǒng)方法來通過消除漏洞、實施道德AI實踐和減輕過度自主性的風險來保護AI系統(tǒng)。
應(yīng)用人在回路(Human-in-the-Loop)方法:人在回路控制對于控制LLM行為至關(guān)重要,它使監(jiān)督、干預(yù)和道德決策成為可能,這是AI系統(tǒng)無法單獨實現(xiàn)的。在LLM執(zhí)行之前,人類操作員審查并批準行動,特別是那些具有重大影響或涉及敏感信息或操作的行動。
避免智能體上下文協(xié)議的風險:企業(yè)必須使用最小權(quán)限上下文共享,將智能體權(quán)限限制在其功能所需范圍內(nèi)。為了維護安全的供應(yīng)鏈,企業(yè)必須確保其模型可以訪問的所有庫、API和第三方集成都是經(jīng)過審查并定期打補丁的。實施嚴格的網(wǎng)絡(luò)訪問策略,確保只有受信任的實體才能訪問協(xié)議環(huán)境內(nèi)的資產(chǎn)。
結(jié)論
自主LLM中過度自主性的出現(xiàn)呼吁采取安全措施和負責任的AI治理。不受控制的自主性構(gòu)成了嚴重威脅,包括未經(jīng)授權(quán)的數(shù)據(jù)訪問、權(quán)限提升、偏見結(jié)果和對抗性攻擊。
需要一種結(jié)構(gòu)化的AI治理方法,以平衡自主LLM與人類干預(yù)之間的關(guān)系,確保基于LLM的解決方案能夠在不破壞網(wǎng)絡(luò)安全的情況下提升運營效率。