靜態(tài)數(shù)據(jù)脫敏產(chǎn)品技術(shù)路線分析
隨著信息技術(shù)的高速發(fā)展,各用戶單位業(yè)務(wù)系統(tǒng)經(jīng)過多年沉淀,積累了大量個人隱私數(shù)據(jù)和企業(yè)信息。海量數(shù)據(jù)除了內(nèi)部流轉(zhuǎn),還需要進(jìn)行外部“共享”,這亦是國家大數(shù)據(jù)發(fā)展戰(zhàn)略規(guī)劃的需求和前提。如何保證數(shù)據(jù)在產(chǎn)生、交換、共享等場景下的安全可用?這讓數(shù)據(jù)脫敏安全技術(shù)成為熱門。
《網(wǎng)絡(luò)安全法》的正式實(shí)施,數(shù)據(jù)脫敏被納入法規(guī)遵從的需求。《網(wǎng)絡(luò)安全法》要求:數(shù)據(jù)流動過程中應(yīng)重視保護(hù)個人隱私、社保信息、資產(chǎn)信息、醫(yī)療信息等敏感信息的安全。為滿足這一要求,數(shù)據(jù)共享時需要使用數(shù)據(jù)脫敏技術(shù)。特別是當(dāng)數(shù)據(jù)應(yīng)用于開發(fā)、測試、培訓(xùn)等環(huán)境時,安全風(fēng)險較大,使用真實(shí)數(shù)據(jù)將臨嚴(yán)重數(shù)據(jù)泄露的風(fēng)險。
數(shù)據(jù)脫敏又稱數(shù)據(jù)去隱私化或數(shù)據(jù)變形,是在給定的規(guī)則、策略下對敏感數(shù)據(jù)進(jìn)行變換、修改的技術(shù)機(jī)制,能夠在很大程度上解決敏感數(shù)據(jù)在不可控環(huán)境中使用的問題。國內(nèi)銀行、通信運(yùn)營商等是最早開始使用數(shù)據(jù)脫敏工具的單位,多以靜態(tài)脫敏為主。
市面上有諸多靜態(tài)脫敏產(chǎn)品,如何做挑選?本文將從這些脫敏產(chǎn)品的技術(shù)路線進(jìn)行分析,從使用效果出發(fā),淺析各種技術(shù)在脫敏過程中使用效果上存在的差異,呈現(xiàn)產(chǎn)品真正能實(shí)現(xiàn)的功能和價值。希望能為廣大用戶在數(shù)據(jù)脫敏產(chǎn)品的選型上提供參考。
一、脫敏系統(tǒng)的數(shù)據(jù)獲得方式
數(shù)據(jù)脫敏第一步,需要獲得數(shù)據(jù)庫中的數(shù)據(jù)。如何獲得數(shù)據(jù)主要有以下幾種方式:
1. 代理軟件
使用代理軟件,部署在數(shù)據(jù)庫上從數(shù)據(jù)庫讀取數(shù)據(jù)。這種方式的脫敏產(chǎn)品對用戶方來說是侵入式的,只有極少數(shù)產(chǎn)品才這樣使用。市面上數(shù)據(jù)備份廠商的數(shù)據(jù)脫敏產(chǎn)品會采用這種方式,因?yàn)槔脗浞蒈浖蛻舳俗鳛閿?shù)據(jù)脫敏的數(shù)據(jù)采集工具使用,速度較快。
2. 數(shù)據(jù)庫開發(fā)接口
這種針對不同的數(shù)據(jù)庫開發(fā)接口方式的有點(diǎn)在于數(shù)據(jù)采集速度較快,市面上大部分脫敏產(chǎn)品采用此種方式。這種采集方式的缺點(diǎn)也很明顯,數(shù)據(jù)庫類型太多,脫敏產(chǎn)品支持的數(shù)據(jù)庫類型與版本都會受限制。如果用戶將來升級了數(shù)據(jù)庫版本,除非脫敏廠商也花精力開發(fā)升級版本,否則采購的脫敏產(chǎn)品可能無法繼續(xù)支持。
3. ETL技術(shù)
這種采集技術(shù)的優(yōu)勢是兼容性大,ETL工具兼容的數(shù)據(jù)庫類型是最全面的。當(dāng)然這個方式也有弱點(diǎn),由于不是專門針對特定數(shù)據(jù)庫類型開發(fā),在沒有強(qiáng)大的ETL技術(shù)積累的情況下,采集數(shù)據(jù)的速度一般。從國外脫敏廠商來看,具備有一定ETL技術(shù)積累優(yōu)勢大多采用此種技術(shù),如:Informatica 。而國內(nèi)脫敏廠商中,大多數(shù)廠商主業(yè)并不是大數(shù)據(jù)處理,沒有ETL工具的技術(shù)能力而很少采用。
二、數(shù)據(jù)落地與否
數(shù)據(jù)落地是指數(shù)據(jù)脫敏過程中,數(shù)據(jù)需要保存到脫敏系統(tǒng)后再進(jìn)行脫敏。數(shù)據(jù)落地的好處是,獲得了需要脫敏的全部數(shù)據(jù)后再脫敏,對數(shù)據(jù)關(guān)系、業(yè)務(wù)關(guān)聯(lián)方面容易處理與實(shí)現(xiàn)。但問題是,數(shù)據(jù)落地需要脫敏系統(tǒng)也具有數(shù)據(jù)源同樣大小的存儲空間,對脫敏系統(tǒng)的存儲要求較高,同時進(jìn)行多業(yè)務(wù)數(shù)據(jù)源脫敏的情況下,還需要對接存儲系統(tǒng),不僅硬件成本高,還存在安全困擾。
數(shù)據(jù)脫敏從信息安全的職責(zé)分離的要求下出發(fā),脫敏系統(tǒng)的管理者為安全管理員,將DBA接觸敏感數(shù)據(jù)場景剝離出來,同時安全管理員不具有DBA權(quán)限也無法查看全部的敏感數(shù)據(jù)。但在數(shù)據(jù)落地的情況下,安全管理員可以從數(shù)據(jù)脫敏系統(tǒng)內(nèi)獲得全部敏感數(shù)據(jù),這就違背了職責(zé)分離的初衷。
市面上大部分產(chǎn)品不會采用此種數(shù)據(jù)落地方式脫敏,只有少數(shù)由于沒有ETL技術(shù),也沒有針對不同數(shù)據(jù)庫開發(fā)接口,擁有備份技術(shù)積累的脫敏廠商會使用這種脫敏方式。
三、脫敏算法的復(fù)雜程度
脫敏系統(tǒng)需要解決的一個重要安全問題是算法的可逆性。脫敏系統(tǒng)不像腳本處理作簡單替換即可。以國內(nèi)姓名字段的脫敏算法為例,用于姓名的主要脫敏技術(shù)主要有包括:
(1)直接將所有中文姓名,替換為固定姓名,如“張—”。這種算法簡單,處理速度快,安全性差,處理結(jié)果單一,分布特征完全喪失。
(2)將原姓名每個中文字符的編碼進(jìn)行偏移隨機(jī)長度,以生成另外一個中文字符。這種算法安性高,像真實(shí)姓名一樣。速度也較快,處理后的數(shù)據(jù)結(jié)果有較強(qiáng)的真實(shí)性。
(3)準(zhǔn)備一張常見中文名字的碼表,存放100萬左右的中文姓名,將原有姓名hash查表后進(jìn)行替換。數(shù)據(jù)脫敏算法需要大量時間和空間開銷,數(shù)據(jù)安全性一般,算法可逆程度不高。
(4)分析原始數(shù)據(jù)通過預(yù)處理建立頻度碼表的方式。這種方式需要先分析原始數(shù)據(jù)的特征,然后建立一個頻度的分析報告,再建立不同字符的分布標(biāo)準(zhǔn)表格,脫敏算法依據(jù)頻度對應(yīng)的字符來替換。
在選擇脫敏產(chǎn)品時,也應(yīng)該關(guān)注數(shù)據(jù)脫敏算法,選擇最為高效可用的。
四、脫敏系統(tǒng)的環(huán)境適應(yīng)能力
市場上數(shù)據(jù)庫種類多,服務(wù)器與系統(tǒng)種類也多,特別是一些不常用的系統(tǒng)與數(shù)據(jù)庫,類似于小機(jī)環(huán)境下的數(shù)據(jù)庫,部分客戶還是IBM的Z系統(tǒng)的大型機(jī)等。
面對擁有不同類型的服務(wù)器與數(shù)據(jù)庫的客戶,市場上并不是所有脫敏系統(tǒng)全部兼容支持的。用戶在選用這些脫敏系統(tǒng)時需要具有長遠(yuǎn)的發(fā)展眼光,將來可能會用到的數(shù)據(jù)庫與系統(tǒng),脫敏產(chǎn)品時是否需要全面支持。
另外,還需要考慮不同數(shù)據(jù)庫之間的數(shù)據(jù)脫敏轉(zhuǎn)換。(異構(gòu)數(shù)據(jù)脫敏)可能會出現(xiàn)源數(shù)據(jù)庫使用的是一種類型,而數(shù)據(jù)需求方使用的數(shù)據(jù)庫是另一種類型,這時候的數(shù)據(jù)脫敏就需要兼容不同數(shù)據(jù)庫之間的數(shù)據(jù)轉(zhuǎn)換。
五、脫敏廠商的安全與數(shù)據(jù)庫服務(wù)能力
數(shù)據(jù)脫敏系統(tǒng)畢竟不同于傳統(tǒng)網(wǎng)絡(luò)安全的硬件,需要對數(shù)據(jù)庫具有較深入的理解,是信息安全與數(shù)據(jù)庫DBA的結(jié)合領(lǐng)域。
一方面需要脫敏產(chǎn)品具有傳統(tǒng)安全的理念,如實(shí)現(xiàn)數(shù)據(jù)脫敏的流程化、落實(shí)數(shù)據(jù)的職責(zé)分離。(如脫敏系統(tǒng)屬于安全管理員維護(hù)的系統(tǒng)、而數(shù)據(jù)庫維護(hù)屬于DBA職責(zé))。另一方面,系統(tǒng)應(yīng)具有配套的流程管理系統(tǒng),幫助安全管理員實(shí)現(xiàn)數(shù)據(jù)的脫敏。
由于安全管理員不具有DBA的知識背景,在很多脫敏項(xiàng)目中需要脫敏廠商幫助安全管理員來制定脫敏策略,實(shí)現(xiàn)數(shù)據(jù)安全脫敏。
六、快速響應(yīng)客戶的開發(fā)能力
數(shù)據(jù)脫敏系統(tǒng)國外產(chǎn)品進(jìn)入國內(nèi)已經(jīng)多年,早期大數(shù)據(jù)用戶使用時會明顯感覺國外產(chǎn)品對國內(nèi)用戶使用帶來的不便,需要將產(chǎn)品做一些修改調(diào)整時往往無法實(shí)現(xiàn)。
隨著國內(nèi)脫敏產(chǎn)品的日益完善,國外脫敏產(chǎn)品已正慢慢退出,國內(nèi)產(chǎn)品可以按客戶要求場景快速修改(二次開發(fā)能力),滿足國內(nèi)用戶的使用要求。
七、脫敏解決方案的全面性
大部分用戶在選擇脫敏系統(tǒng)時,不僅需要考慮當(dāng)前數(shù)據(jù)離開生產(chǎn)環(huán)境的靜態(tài)脫敏,還需要考慮當(dāng)數(shù)據(jù)還在生產(chǎn)環(huán)境時,面對DBA與業(yè)務(wù)系統(tǒng)的脫敏需求。業(yè)務(wù)系統(tǒng)用戶還可以通過應(yīng)用開發(fā)來設(shè)置用戶屏蔽條件,但針對DBA的使用場景,就需要動態(tài)脫敏產(chǎn)品進(jìn)行動態(tài)脫敏。如果同一廠商在靜態(tài)脫敏與動態(tài)脫敏都具有解決方案,對用戶而言,更具備競爭優(yōu)勢。
八、脫敏系統(tǒng)的合法性
數(shù)據(jù)脫敏系統(tǒng)已經(jīng)被納入了計(jì)算機(jī)信息系統(tǒng)安全專業(yè)產(chǎn)品范疇,按照公安部的要求應(yīng)具備產(chǎn)品銷售許可證。很多廠商都沒有耐心研發(fā)產(chǎn)品,OEM其它廠商后申請一個軟件著作權(quán)證書,就變成自己的產(chǎn)品解決方案,更有些廠商OEM后連銷售許可都不具備。建議用戶選擇脫敏系統(tǒng)時,選用獲得公安部銷售許可證的數(shù)據(jù)脫敏系統(tǒng)。