黑客如何利用提示詞工程操縱 AI 代理?
“代理式”人工智能(Agentic AI)時代已經到來,企業不能再忽視其變革潛力。AI代理能夠獨立運行,根據其編程進行決策和行動。Gartner預測,到2028年,15%的日常業務決策將完全由AI代理自主完成。
然而,隨著這些系統的廣泛應用,它們被集成到關鍵業務操作中,同時擁有過大的權限——深度訪問系統、數據、功能和權限——使其成為網絡犯罪分子的誘人目標。其中,威脅行為者利用提示詞工程(Prompt Engineering)來操縱、欺騙或破壞AI代理,這是一種隱蔽但強大的攻擊手段。
提示詞工程為何能被利用?
提示詞工程是指為AI系統(尤其是基于大語言模型[LLMs]的系統)精心設計輸入(即“提示詞”),以引導其產生特定的響應或行為。雖然提示詞工程通常用于合法的目的,例如指導AI的決策過程,但它也可能被威脅行為者利用,以影響其輸出,甚至操縱其底層數據或邏輯(即“提示詞注入”)。
威脅行為者如何利用提示詞工程攻擊AI代理?
威脅行為者通過多種提示詞工程技術來攻擊AI代理系統,例如:
隱寫式提示詞(Steganographic Prompting)
是否還記得SEO投毒技術?該技術通過在白色背景上使用白色文字操控搜索引擎結果。當用戶瀏覽網頁時,他們無法看到這些隱藏文字,但搜索引擎爬蟲可以讀取。類似地,隱寫式提示詞技術通過嵌入隱藏文字或混淆指令,使其對人眼不可見,但可被大語言模型檢測到。例如,某CEO使用AI郵箱助理進行回復。在發送郵件前,AI會進行一些檢查以確保遵守編程規則(例如,不涉及緊急、敏感或專有信息)。但如果郵件中包含一些對人眼不可見但被AI讀取的隱藏文字,可能會導致AI執行未經授權的操作、泄露機密信息,或生成不當或有害的輸出。
通過這種方式,黑客可以利用AI的復雜性達成其惡意目的,這不僅對企業的安全構成威脅,也對AI技術的發展提出了新的安全挑戰。