微軟推出用于發現AI模型風險的工具PyRIT
微軟公司一個負責利用黑客手段發現網絡安全問題的團隊開源了一個內部工具PyRIT,該工具可以幫助開發人員發現人工智能模型中的風險。
研究人員于本周四發布了該框架的代碼。微軟表示,PyRIT可以自動生成數以千計的對抗性人工智能提示,來測試神經網絡能否有效抵御黑客的攻擊。該工具主要用于處理文本,但其構建的方式也允許開發人員添加圖像等人工智能支持的輸入類型。
PyRIT最初是微軟人工智能紅隊測試團隊內部使用的腳本集。該團隊負責模擬針對新人工智能模型的網絡攻擊,以便能夠搶在黑客之前找到弱點。研究人員們不斷擴展腳本的附加功能,直到代碼庫發展成了本周發布的PyRIT框架。
在將新創建的人工智能模型部署到生產中之前,開發人員必須對其進行幾類風險測試。他們必須查找網絡安全風險,例如可能導致模型編寫惡意軟件的提示。軟件團隊還需要查找人工智能可能產生幻覺的情況,并確定其是否會被誘騙泄露訓練數據集中的敏感信息。
有些模型不僅會生成文本,還會生成圖像等其他類型的輸出,這讓這個任務變得更加復雜。必須對每一種輸出的類型以及用戶與人工智能交互的每一個軟件界面分別重復進行脆弱性測試。這就意味著要想徹底測試神經網絡需要開發人員制作數千個對抗性提示,這通常是不切實際的。
微軟創建PyRIT就是為了消除這一限制。該公司表示,這個框架允許開發人員指定某種類型的對抗性人工智能輸入,并自動生成數千個符合標準的提示。這些提示可被用于測試以網絡服務形式實現的人工智能,以及通過應用編程接口提供的模型。
微軟的研究人員在一篇詳細介紹該框架的博文中強調:“PyRIT并不能取代生成式人工智能系統的人工紅隊。”“相反,它增強了人工智能紅隊成員現有的領域專業知識,并為他們自動完成繁瑣的任務。”
PyRIT不僅能生成對抗性提示,還能評估目標模型的響應情況。據微軟稱,內置的評分引擎會自動判斷開發人員正在測試的P馱諳煊μ崾臼筆欠窕岵瀉κ涑觥H砑哦涌梢匝≡裼謎攵韻嗤撾窆菇ǖ耐獠可窬縑婊荒掀婪忠妗?
由于能夠分析人工智能的響應,因此PyRIT適合執行所謂的多輪風險評估。該框架可以向人工智能輸入對抗性提示,分析其反應,并相應地調整下一個提示,使其更加有效。微軟的研究人員解釋說:“雖然單輪攻擊策略的計算時間更快,但多輪紅隊測試可以實現更逼真的對抗行為和更先進的攻擊策略。”