數據中毒可能會扼殺人工智能和機器學習
人工智能 (AI) 可能為各種規模的企業開辟了新的機會和市場,但對于不同的黑客群體來說,這為通過稱為數據中毒的過程欺騙機器學習 (ML) 系統提供了機會。
“數據中毒”(Data poisoning)是一種特殊的對抗攻擊,是針對機器學習和深度學習模型行為的一系列技術。 惡意行為者可以利用數據中毒為自己打開進入機器學習模型的后門,從而繞過由人工智能算法控制的系統。數據中毒攻擊旨在通過插入錯誤標記的數據來修改模型的訓練集,目的是誘使它做出錯誤的預測。
專家表示,這些攻擊每天都在被忽視,這不僅會損失企業的潛在收入,還會感染機器學習系統,這些系統繼續重新感染那些依賴用戶輸入進行持續訓練的機器學習模型。
麥肯錫認為AI-ML技術的潛在全球影響價值為10萬億美元至15萬億美元,并表示該領域的早期領導者已經看到5年股東總回報增加了 250%。但是,當麥肯錫向1000 多名高管詢問他們的數字化轉型工作時,72% 的受訪組織表示他們沒有成功擴展。
即使是剛開始使用黑魔法的黑客也發現數據中毒攻擊相對容易執行,因為創建“污染”數據通常可以在不了解要影響的系統的情況下完成。操縱自動補全以影響產品評論和政治虛假宣傳活動每天都在發生。
數據中毒攻擊可能會降低機器學習服務的可靠性
針對機器學習的攻擊通常被認為集中在兩個要素上:攻擊者擁有的信息和攻擊的時機,這解釋了ML算法、模型和數據安全解決方案提供商HiddenLayer?的Eoin Wickens?、Marta Janus?和Tom Bonner最近進行的研究。
攻擊者可以通過修改現有數據集中的條目或向數據集中注入被篡改的數據來執行數據中毒,這些數據可以更容易地輸入到那些基于在線機器學習的服務中,這些服務通過用戶提供的輸入不斷地重新訓練。
有時,黑客只是想降低機器學習模型的整體可靠性,也許是為了實現與 ML 模型旨在產生的檢查相反的決定。在更有針對性的攻擊中,目標可能是一個更具體的錯誤結果,同時保持其他人的準確性,這些可能會在很長一段時間內被忽視。
包括自動補全、聊天機器人、垃圾郵件過濾器、入侵檢測系統、金融欺詐預防甚至醫療診斷工具在內的技術都容易受到數據中毒攻擊,因為它們使用在線訓練或持續學習模型。
NCC Group?首席科學家Chris Anley?在他最近的論文Practical Attacks on Machine Learning Systems中解釋說,黑客和不良行為者可能旨在將系統與精心制作的不良數據混淆,以添加“后門”行為。
“例如,用于身份驗證的面部識別系統可能會被操縱,以允許任何佩戴特定眼鏡的人被歸類為某個用戶,而在其他情況下,系統會正常運行,”Anley 解釋說。“
Anley說,現在需要采取行動,因為越來越多的證據突出了必須解決的問題。Anley 還表示,用于訓練系統的敏感數據通常可以被攻擊者恢復并用于攻擊系統,而神經網絡分類器可能是“脆弱的”,因為它們可能被迫對數據進行錯誤分類。他補充說,現有的對策可能會降低準確性,甚至為其他攻擊打開大門。遠程黑客可以提取經過訓練的 ML 模型的高保真副本,為他們提供一個馴服的示例,以觀察和學習未來的攻擊。
“雖然由于可能存在各種緩解措施,利用這些問題并不總是可行,但這些新形式的攻擊已經得到證明,并且在實際場景中肯定是可行的。”Anley 說。