揭秘企業中的數據屏蔽技術
公司的網絡需要定期打補丁,網絡上運行的應用程序也同樣如此。將網絡和應用程序補丁和版本升級結合起來,就會發現要確保所有這些變化不會破壞企業的基礎設施,測試環境是多么的重要。
但在測試環境中,使用有效的生產數據并不切合實際。它的使用往往受隱私法律和安全政策的限制。在生產環境中,可以適當地實施嚴格的訪問控制措施,用戶界面提供數據的控制和管理權限。非生產系統中,數據的安全性通常無法滿足開發和測試過程中速度和靈活性的要求。加之更多的雇員(如開發人員和系統工程師)需要擁有對數據進行低級別訪問的特權。顯然,這種類型的環境不符合保護敏感數據的法律規定。
但要實現有效性,測試環境就必須使用真實數據。但是,如果一個應用程序要處理50萬個用戶和幾百萬筆交易的話,手動創建所需的大量數據是不可能的。
那么,在現行系統上運行一個應用程序之前,如何獲得該應用更新所需的測試數據呢?為了提供實際數據,許多測試團隊轉而研究可用于非生產環境中的數據屏蔽技術。
數據屏蔽(data masking)——又被人們稱為數據混淆、去身份識別(de-identification)、去個人化(depersonalization)或數據洗擦(data scrubbing),是為了消除數據所有可識別的特征來實現匿名時仍然可用的功能,而最重要的目的是為了消除泄漏敏感信息的風險。數據屏蔽的概念于90年代初***被提出,目的是:在不暴露敏感信息的情況下,向開發團隊提供有意義的測試數據。最近隨著法律和合規要求的出臺以及改進的屏蔽技術,重新創建大型數據集變得更加容易,這引起了企業的廣泛注意。
要在安全的基礎上實現有效性,數據屏蔽技術必須通過改變數據來保護個人記錄的隱私,所以無法確定或重新計算出實際值。最常用的數據屏蔽技術有加密、混編(shuffling)、屏蔽、替代、方差(variance)和置空方法。混編方法指的是列數據的隨機移動,而替代則是以相似信息取代了原來的列數據,而且替代的內容與真實信息完全無關,例如把所有的男性名字改為名單中隨機選出的名字。方差方法可用于數字和日期列,通過真實值的隨機比例對每個值進行修正。
實際上,數據屏蔽是一項復雜的技術,該技術力求提供匿名且仍可用的測試數據,這些測試數據還得具有原始資料的表面特征; 一連串毫無意義的隨機文本通常是不夠的。例如加密方法,將字符轉換成二進制數據后再插入應用程序,這樣數據看起來就不再真實了,并且對報告和打印機而言也不好。替代數據,如街道名稱,有時很難找到大量的數據,數據混編技術真的只能用于大型數據集,即便如此仍可能泄露敏感數據。例如,人力資源數據庫中的***工資(可能是該公司CEO的工資)仍然可見,但顯示出來的是另一名雇員的工資數(當然,某些訪問了此數據的人可能猜得出是CEO的薪水,所以經過推理,信息會泄漏出來)。雖然方差技術提供了一種掩飾數據的合理方法,但數據的大小分布在合理范圍內至關重要,如絕對不能出現某個員工150歲這樣的錯誤。自由格式文本數據,如備忘錄和筆記,幾乎不可能用任何數據屏蔽技術進行保密處理,因此這些數據都必須用諸如Lorem Ipsum的虛構字體來取代。
不管數據屏蔽技術采用的是哪種方法,但數據庫里行、列、表格之間的數據結構和數據關系在每一步的屏蔽操作中要保持相同,這一點至關重要。例如,如果雇員表的密碼是EMPLOYEE_NUMBER,那么它的變更一定會引起所有其它相關表格出現相同的變化。有些數據項具有一種表征內部含義的結構,如信用卡號碼的校驗和。對這種類型的數據進行保密處理的唯一方法就是混編,混編后沒有任何一行包含原始數據,但每個數據項仍然內部有效。如果取而代之的是隨機數字集合,那么就意味著任何有效性檢查都會失敗,并會妨礙數據庫的更新測試。正如你所見,要合理采用數據屏蔽技術,就需要好好考慮很多問題。
幸好有越來越多的數據屏蔽產品用于大型數據集的自動加密。Camouflage Software公司被專業市場調研機構Forrester Research評為數據屏蔽的五大供應商之一,它提供隱蔽數據屏蔽生命周期管理套件(Camouflage Data Masking Lifecycle Management Suite)。其他廠商還有DataGuise和Original Software,甲骨文公司為其開發的數據庫應用程序提供數據屏蔽包。同時IBM公司開發了一種名為企業屏蔽網關(MAGEN)的軟件工具,此工具在數據到達用戶的屏幕之前,采用光學字符識別技術和屏幕抓取方式識別并掩蓋保密數據。
數據屏蔽技術,如果使用得恰當,不僅可以做到遵守相關數據隱私法規,而且對減少公司內外部的數據泄漏風險而言也是行之有效的策略,數據屏蔽技術對任何非生產數據庫和其它測試環境而言也是***措施。該技術使得現實的數據被用于測試、培訓和軟件開發,包括異地或跨國界的項目。
【編輯推薦】