用機器學習來降低風險,這真是極好的
如今企業開始部署機器學習。企業希望員工使用機器學習的三個主要原因包括:節省成本、更快處理海量數據以及更快發現新的漏洞。
大型零售商使用機器學習應用來發現電子商務中的欺詐性交易,同時防止合法交易被阻止。他們利用機器學習來分析客戶對產品的態度,并找出冒充長期客戶的攻擊者。
金融機構利用機器學習應用或系統來預測貸款違約以及欺詐和洗錢行為;醫院可通過機器學習預測可節省的急診室等候時間、可預測的中風和癲癇發作以及浪費式的再次住院;大型律師事務所則可利用機器學習幫助律師更快決定選擇處理哪些案件,法律機器人被訓練用以確定企業合同是否包含所有必備條款。
機器學習的其他應用包括預測健康狀況和股票價格,以及電力負荷與太陽能發電。
機器學習自帶風險
即便是最好的機器學習模型也存在著風險,這包括因糟糕學習算法導致的誤報,這可能被攻擊者利用。同時,機器學習模型還可能獲取來自最近被攻擊主機的受感染數據,沒有誤報并不意味著沒有任何風險,攻擊者可以利用運行機器學習應用平臺系統中的漏洞。
機器學習面臨的風險之一是攻擊者可利用偽造的生物識別指紋和虹膜以及面部特征來冒充合法用戶。另一個風險是攻擊者在測試或執行期間可以騙過機器學習模型將惡意訓練樣本分至合法類別。這可能導致機器學習模型產生與預期完全不同的結果。
機器學習風險管理
下面是降低機器學習應用風險的五種方法:
1. 執行道德攻擊
道德攻擊是指值得信賴的安全專家入侵系統以發現被防火墻、入侵檢測系統或其他任何安全工具忽視的機器學習漏洞。在獲取訪問權限方面,道德攻擊者利用的是合法用戶在設備上遺留的指紋所重構的偽造指紋。在進入系統后,道德攻擊者可潛入指紋數據庫,獲取另一位合法用戶的生物特征模板,再重建一個假的指紋。為了應對這種風險,設備讀取器必須在每次使用后進行清理,數據庫應被加密。
2.加密安全日志
系統管理員擁有超級用戶權限來分析機器學習日志文件,這樣做的原因包括:檢查是否遵守安全政策、對系統進行故障排查以及取證。加密日志文件是防止日志文件被攻擊的一種方法。更改日志內容所需要的加密密鑰不會暴露給惡意攻擊者,如果攻擊者試圖刪除日志文件,管理員會立即收到警報。
3. 清理訓練數據
當提供良好的訓練數據時,機器學習模型可良好地運作。該模型開發人員必須知道這些數據從何而來,這些數據必須是干凈的數據,而不是異常或受感染的數據。如果數據來源主機受到攻擊,則應該停止使用這些數據。糟糕的數據可能導致機器模型無法良好運作,最終導致系統關閉。當使用機器學習工具來為特定目的評估數據時,模型開發人員應該將所有數據轉換為通用格式。
4. 對模型生命周期采用DevOps
攻擊者可利用來自機器學習平臺的誤報信息。對于這種風險,我們可對機器學習模型生命周期應用DevOps,DevOps讓開發和訓練、質量保證及生產團隊相互協作。
DevOps會從開發和訓練階段開始,然后進入到質量保障階段來看看模型的訓練情況。不滿意的測試結果意味著需要返回到開發階段,為模型提供更好的數據。如果測試結果很好,模型則會進入生產階段,處理真實世界的數據。如果結果不符合預期,DevOps應該從開發或質量保障階段再次重復。
5. 部署安全政策
最后,我們還應該部署安全政策。在簡單的情況下,安全政策應該包括五個部分:目的、范圍、背景、行動和限制。范圍會確定涵蓋哪些內容:機器學習模型類型、訓練數據和數據挖掘算法(回歸、聚類或神經網絡)。背景部分則會查看政策背后的原因,行動部分介紹如何利用DevOps來降低風險,而限制部分則會查看機器學習的限制以及測試數據的可用性。