譯者 | 布加迪
審校 | 重樓
現代技術遠非萬無一失——比如說,我們可以看到,眾多漏洞不斷涌現出來。雖然通過設計保證安全的系統是一條屢試不爽的最佳實踐,但這么做可能會分流來自其他方面的資源,比如用戶體驗(UX)設計、性能優化以及與其他解決方案及服務的互操作性。
因此,安全常常退居次席,只滿足最低限度的合規要求。如果涉及敏感數據,這種取舍尤其令人擔憂,因為這類數據需要與其重要性相對應的保護。如今,在人工智能和機器學習系統中,安全措施不到位的風險越來越明顯。在這類系統中,數據是其功能的基礎。
什么是數據中毒?
人工智能/機器學習模型立足于核心訓練數據集,這些數據集通過監督式學習和非監督式學習不斷更新。機器學習是實現人工智能的主要途徑,機器學習支持深度學習,以開發人工智能的許多功能。數據越多樣化、越可靠,模型的輸出就越準確、越有用。因此在訓練期間,這些模型需要訪問大量的數據。
另一方面,依賴大量數據也帶來了風險,因為未經驗證或審查不力的數據集增加了結果不可靠的可能性。眾所周知,生成式人工智能、尤其是大語言模型(LLM)及其分支(比如人工智能助手)特別容易受到惡意篡改模型的攻擊。
最陰險的威脅之一是數據(或數據庫)中毒,即攻擊者試圖改變模型的行為,導致模型生成不正確、有偏見甚至有害的輸出。這種篡改行為帶來的后果可能波及整個應用程序,破壞信任,并給個人和組織都帶來系統性風險。
數據中毒的類型
數據中毒攻擊有多種類型,例如:
- 數據注入:攻擊者將惡意數據點注入到訓練數據中,使人工智能模型改變其行為。一個典例是,在線用戶慢慢地改變Tay Twitter機器人程序,以發布攻擊性推文。
- 內部攻擊:與常規的內部威脅一樣,員工可能會濫用訪問權限來改變模型的訓練集,一點點改變以篡改模型的行為。內部攻擊尤其陰險,因為它們利用了合法訪問權。
- 觸發器注入:這種攻擊將數據注入到人工智能模型的訓練集以創建觸發器。這使攻擊者能夠繞過模型的安全機制,根據設置的觸發器在各種情況下操縱其輸出。檢測這種攻擊存在的挑戰在于,很難發現觸發器;此外在觸發器被激活之前,威脅一直潛伏著。
- 供應鏈攻擊:這些攻擊的影響可能特別可怕。由于人工智能模型經常使用第三方組件,在供應鏈過程中引入的漏洞最終會危及模型的安全,并使其易于被利用。
隨著人工智能模型被深深地嵌入商業系統和消費者系統中,充當助手或生產力倍增器,針對這些系統的攻擊正成為一個重大問題。
雖然企業人工智能模型可能不會與第三方共享數據,但它們仍然會獲取內部數據以改進輸出。它們需要訪問敏感信息寶庫,這使得它們成為高價值目標。消費者模型面臨的風險進一步加大,因為它們通常與其他有關方共享用戶的提示(通常充滿敏感數據)。
如何確保機器學習/人工智能開發安全?
機器學習/人工智能模型的預防策略需要開發人員和用戶都加強安全意識。主要策略包括如下:
- 持續檢查和審計:重要的是要不斷檢查和驗證饋入到人工智能/機器學習模型的數據集的完整性,以防止惡意操縱或有偏見的數據損害它們。
- 關注安全:人工智能開發人員本身可能最終成為攻擊者的瞄準目標,因此擁有安全環境對于安全開發必不可少。這種環境可以提供一種預防優先的方法,通過主動預防、早期檢測以及系統性安全檢查,盡量縮小攻擊面。
- 對抗性訓練:如前所述,模型通常由專業人員監督以指導其學習。同樣的方法可以用來教模型區分惡意數據點和有效數據點,最終幫助阻止中毒攻擊。
- 零信任和訪問管理:為了防御內部威脅和外部威脅,應該使用可以監視未經授權訪問模型核心數據的安全解決方案。這樣,可以更容易地發現和防止可疑行為。此外,零信任確保默認情況下沒有人是可信任的,在授予訪問權之前需要進行多重驗證。
通過設計保證安全
構建通過設計保證安全的人工智能/機器學習平臺不僅大有助益,還勢在必行。就像虛假信息會影響人們做出有害和極端的行為一樣,中毒的人工智能模型也會導致有害的結果。
隨著世界越來越關注與人工智能開發相關的潛在風險,平臺創建者應該捫心自問:自己是否做了足夠的工作來保護模型的完整性。消除偏見、不準確和漏洞以免它們造成危害需要成為開發方面的一個核心優先事項。
隨著人工智能進一步融入到我們的生活中,確保人工智能系統安全只會越來越重要。企業、開發人員和政策制定者還必須共同努力,確保人工智能系統能夠抵御攻擊。這樣一來,我們才可以在不犧牲安全、隱私和信任的情況下發掘人工智能的潛力。
原文標題:Untrustworthy AI: How to deal with data poisoning,作者:Márk Szabó