平安銀行智能化數(shù)據(jù)安全分類分級(jí)實(shí)踐分享
一、數(shù)據(jù)安全智能分類分級(jí)平臺(tái)建設(shè)背景
首先來介紹一下數(shù)據(jù)安全智能分類分級(jí)平臺(tái)建設(shè)背景。
我國在 2021 年發(fā)布了《中華人民共和國數(shù)據(jù)安全法》和《中華人民共和國個(gè)人信息保護(hù)法》兩大法律,將數(shù)據(jù)安全提升到了新的高度。隨著監(jiān)管機(jī)構(gòu)發(fā)布銀行保險(xiǎn)機(jī)構(gòu)的安全管理辦法,以及人民銀行發(fā)布《中國人民銀行業(yè)務(wù)領(lǐng)域數(shù)據(jù)安全管理辦法(征求意見稿)》,對(duì)銀行業(yè)數(shù)據(jù)安全提出了非常高的要求。
在此背景下,平安銀行注重?cái)?shù)據(jù)分類分級(jí),準(zhǔn)確識(shí)別需要重點(diǎn)保護(hù)的高敏感數(shù)據(jù),以滿足監(jiān)管要求并確保數(shù)據(jù)安全。接下來就將介紹平安在數(shù)據(jù)安全分類分級(jí)方面的建設(shè)思路和實(shí)現(xiàn)方法。
二、數(shù)據(jù)安全分類分級(jí)建設(shè)思路和實(shí)踐
數(shù)據(jù)分類分級(jí)是平安銀行開展數(shù)據(jù)安全工作的基礎(chǔ)。要對(duì)數(shù)據(jù)進(jìn)行安全保護(hù),首先應(yīng)該知道哪些數(shù)據(jù)是需要重點(diǎn)保護(hù)的,也就是哪些是重要數(shù)據(jù)、敏感數(shù)據(jù)。大眾認(rèn)知中的重要數(shù)據(jù)與監(jiān)管標(biāo)準(zhǔn)中要求的敏感數(shù)據(jù)可能并不一致,除了姓名、手機(jī)、身份證號(hào)等,還有其它一些敏感數(shù)據(jù)需要重點(diǎn)保護(hù)。
平安銀行在進(jìn)行數(shù)據(jù)安全分類分級(jí)建設(shè)時(shí),采取了三步走的策略:
- 第一步做標(biāo)簽:確定數(shù)據(jù)安全分類標(biāo)準(zhǔn),即需要一個(gè)標(biāo)準(zhǔn)來識(shí)別數(shù)據(jù)的級(jí)別。同時(shí),參考法律法規(guī)和行業(yè)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)識(shí)別和定級(jí),梳理標(biāo)簽體系。此部分工作,先確定數(shù)據(jù)分類,即數(shù)據(jù)屬于哪個(gè)業(yè)務(wù)類別,確定目錄,然后再確定數(shù)據(jù)級(jí)別,根據(jù)泄露后造成的影響來確定級(jí)別,如密級(jí)、絕密級(jí)、國密級(jí)等不同的安全等級(jí)。
- 第二步打標(biāo)簽:探索智能化手段替代人工識(shí)別以降低成本。因?yàn)椋桨层y行的數(shù)據(jù)量是個(gè)天文數(shù)字,數(shù)據(jù)庫有幾百萬張表、幾千萬個(gè)字段之多,所以,我們?cè)谧R(shí)別不同級(jí)別的數(shù)據(jù)時(shí),需要運(yùn)用智能化的手段,利用工具平臺(tái)代替人工來實(shí)現(xiàn)。
- 第三步用標(biāo)簽:根據(jù)打標(biāo)簽結(jié)果制定保護(hù)措施,例如對(duì)姓名進(jìn)行脫敏掩碼、對(duì)身份證號(hào)和手機(jī)號(hào)進(jìn)行數(shù)據(jù)脫敏、加密存儲(chǔ)等工作,并遵循相關(guān)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)保護(hù)。
下面詳細(xì)介紹每一步中的重點(diǎn)內(nèi)容。
1. 做標(biāo)簽– 數(shù)據(jù)安全標(biāo)簽體系
參考國家法律法規(guī)、金融行業(yè)標(biāo)準(zhǔn)和平安自身數(shù)據(jù)資產(chǎn)現(xiàn)狀來建立數(shù)據(jù)安全標(biāo)簽體系。
根據(jù)金標(biāo)委標(biāo)準(zhǔn)要求,數(shù)據(jù)密級(jí)分為五級(jí),由低到高分別為:非保密級(jí)(1 級(jí))、秘密級(jí)(2 級(jí))、機(jī)密級(jí)(3 級(jí))、絕密級(jí)(4 級(jí))和國密級(jí)(5 級(jí))。個(gè)人金融信息分為三級(jí),由低到高分別為 C1、C2 和 C3。其中 C3 為虹膜、指紋、密碼等用于個(gè)人身份鑒別的信息。C2 比如身份證號(hào)、銀行卡號(hào)等。
上圖中展示了部分案例。平安還開展了數(shù)據(jù)安全保護(hù)措施的標(biāo)準(zhǔn)化工作,公司系統(tǒng)眾多,需要統(tǒng)一標(biāo)準(zhǔn),如姓名、手機(jī)號(hào)、身份證號(hào)等信息的掩碼的統(tǒng)一性要求。
2. 打標(biāo)簽– 鷹眼智能打標(biāo)平臺(tái) 3.0
第二步——打標(biāo)簽。平安銀行自研了鷹眼數(shù)據(jù)安全智能標(biāo)簽打標(biāo)平臺(tái),已從 1.0 版本發(fā)展到目前的 3.0 版本,覆蓋了越來越多的數(shù)據(jù)安全標(biāo)簽,準(zhǔn)確率從 83% 到 91%,再到 95%,逐步提高。人工達(dá)標(biāo)準(zhǔn)確率常在 80%~90%,因此該平臺(tái)可以完全代替人工工作。3.0 版本的智能打標(biāo)平臺(tái)具有以下功能和特點(diǎn):
- 數(shù)據(jù)完善性:剔除冷凍表、備份表和臨時(shí)表,對(duì)表進(jìn)行區(qū)分和梳理,引入母子表概念來識(shí)別數(shù)據(jù)表之間的關(guān)系。
- 數(shù)據(jù)安全分類分級(jí)識(shí)別:對(duì)母表進(jìn)行打標(biāo)后,子表可以繼承其數(shù)據(jù)安全分類分級(jí)的打標(biāo)結(jié)果,從而降低工作量。
- 技術(shù)手段:采用了內(nèi)容正則、元數(shù)據(jù)正則以及深度學(xué)習(xí)技術(shù),包括循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以提高準(zhǔn)確率。
- 血緣繼承:實(shí)現(xiàn)了上游表和下游表之間的血緣關(guān)系,使下游表可以直接繼承上游表的打標(biāo)結(jié)果,進(jìn)一步降低工作量。
- 提升準(zhǔn)確率:通過多輪訓(xùn)練優(yōu)化調(diào)優(yōu),最終將準(zhǔn)確率提升至 95%。
- 高效率:能夠取代人工打標(biāo),實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)安全分類分級(jí)識(shí)別,提高工作效率。
鷹眼智能打標(biāo)平臺(tái)的邏輯架構(gòu)分為三個(gè)層次:
- 掃描層,主要包括三個(gè)引擎,分為正則引擎、AI 引擎和血緣引擎。其中,正則引擎主要是針對(duì)一些數(shù)據(jù)內(nèi)容和元數(shù)據(jù)做了一些正則條件;不適合做正則掃描的情況,就根據(jù) AI 模型進(jìn)行智能打標(biāo);血緣引擎通過繼承的方式識(shí)別每一張表的上下游表,并保持標(biāo)簽的一致性。
- 整合層是將三套的引擎的打標(biāo)結(jié)果做統(tǒng)一,整合成全行統(tǒng)一的數(shù)據(jù)安全分類分級(jí)打標(biāo)結(jié)果。
- 服務(wù)層提供多種形式的訪問方式,如通過 API、查詢/下載、離線等。利用打標(biāo)結(jié)果,支撐數(shù)據(jù)生命周期的六大環(huán)節(jié),即采集、傳輸、存儲(chǔ)、使用、刪除、銷毀,提供統(tǒng)一的服務(wù)。
在掃描層下面數(shù)據(jù)主要來源有業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)資產(chǎn)管理平臺(tái)和大數(shù)據(jù)平臺(tái)三部分。
打標(biāo)流程包括人工打標(biāo)、智能打標(biāo)模型訓(xùn)練和人工復(fù)核,形成最終打標(biāo)結(jié)果。
首先,進(jìn)行人工打標(biāo),向智能打標(biāo)模型提供訓(xùn)練集,進(jìn)行訓(xùn)練;然后,智能打標(biāo)模型生成打標(biāo)結(jié)果;最后,再進(jìn)行人工復(fù)核,隨著準(zhǔn)確率提升到 95%,人工復(fù)核不再進(jìn)行大批量、全部的復(fù)核,而是僅做小部分抽樣的人工復(fù)核。最終,打標(biāo)結(jié)果有兩個(gè)方向,一個(gè)是結(jié)果直接上架提供給各個(gè)數(shù)據(jù)平臺(tái)使用;另一方面,將人工復(fù)核發(fā)現(xiàn)的錯(cuò)誤反饋給模型進(jìn)行優(yōu)化,實(shí)現(xiàn)循環(huán)優(yōu)化。
智能打標(biāo)結(jié)果放到數(shù)據(jù)安全管理平臺(tái)進(jìn)行人工復(fù)核,初稿復(fù)核通過后流轉(zhuǎn)到業(yè)務(wù)人員進(jìn)行復(fù)核。如果初稿未通過,結(jié)果直接結(jié)束,但錯(cuò)誤結(jié)果會(huì)重新整理反饋給模型優(yōu)化。復(fù)核確認(rèn)后,結(jié)果可以上架使用。錯(cuò)誤結(jié)果也會(huì)反饋給模型進(jìn)行優(yōu)化。
雙向打標(biāo)方案包括控增量和盤存量?jī)蓚€(gè)方面:
- 盤存量:對(duì)全量字段進(jìn)行打標(biāo)并上架到數(shù)據(jù)資產(chǎn)管理平臺(tái)。
- 控增量:將智能打標(biāo)能力嵌入銀行內(nèi)建模平臺(tái),實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)的落地和建模結(jié)合。
數(shù)據(jù)安全打標(biāo)能力直接放到建模平臺(tái),使得數(shù)據(jù)在設(shè)計(jì)階段就能智能推薦和打標(biāo),伴隨全生命周期流轉(zhuǎn)。這樣可以避免返工和保護(hù)措施不到位的問題,實(shí)現(xiàn)雙向打標(biāo)方案。
3. 用標(biāo)簽– 全行統(tǒng)一“數(shù)據(jù)安全打標(biāo)簽結(jié)果”服務(wù)提供
使用標(biāo)簽對(duì)銀行敏感信息進(jìn)行屏蔽基線保護(hù),比如根據(jù)保護(hù)措施要求,對(duì)客戶姓名只保留姓,其余掩蓋,性別全部掩蓋等等,并在智能打標(biāo)平臺(tái)識(shí)別出全行的敏感字段數(shù)量和位置,一旦查詢或展示這些數(shù)據(jù),保護(hù)措施就能直接落地。
當(dāng)前數(shù)據(jù)資產(chǎn)管理平臺(tái)共計(jì)上架了 300 多萬個(gè)機(jī)密級(jí)以上的敏感字段,已對(duì)接的平臺(tái)包括數(shù)據(jù)安全保護(hù)傘平臺(tái)、數(shù)據(jù)模型設(shè)計(jì)平臺(tái)、大數(shù)據(jù)查詢平臺(tái)、數(shù)據(jù)權(quán)限審批平臺(tái)、行內(nèi)測(cè)試-生產(chǎn)數(shù)據(jù)交換平臺(tái)及行內(nèi)數(shù)據(jù)作業(yè)調(diào)度平臺(tái)等,這些平臺(tái)可以實(shí)時(shí)調(diào)用數(shù)據(jù)安全分類分級(jí)的打標(biāo)結(jié)果。