大數據全生命周期安全與隱私之二
近年來,大數據受到了工業界、科技界、媒體以及政府部門的高度關注,大數據本質上是一種基于數據處理的技術,通過大量數據分析提取有價值的信息,預測未來的變化,它被認為是推動商業和技術創新以及經濟增長的新能源。大數據在各個領域有很多優勢和潛力,但也存在很多問題和挑戰,如隱私保護、倫理問題、數據安全管理方法、個人信息保護和數據濫用等[1],特別是包括隱私信息的大量共享數據在互聯開放環境中被售賣和利用給人們帶來了巨大的損失,大數據安全防護工作迫在眉睫。
本文將分為上下篇,為讀者解讀大數據全生命周期各階段面臨的風險和各種安全防護技術。在上篇中,主要介紹當前國際標準化組織制定的安全標準和大數據生命周期五個階段(收集、存儲、使用、利用和銷毀)面臨的風險,本篇為下篇,將為讀者介紹針對各階段風險處置技術。
1 數據收集
數據收集器可能在未經授權的情況下采集數據,侵犯數據提供商的主權,特別是隱私數據更需要采取安全管理措施,一般對隱私數據采取訪問控制。另外還需要采取安全防護手段防止敏感數據泄漏,例如對某些數據字段進行加密,目前使用較廣泛的是同態加密技術。
1.1 敏感數據訪問控制
保護所有數據的代價較高,因此敏感數據保護是大數據安全管理的核心目標之一。敏感數據如財務數據、供應鏈數據、客戶票據和驗證票據等。自主訪問控制系統在大數據安全方面具有理論的缺陷,例如,用戶對某數據具有所有的控制權,破壞了“最小權限的原則“,從而給大數據系統帶來了安全隱患。由于數據本身的價值不同,敏感程度不同,因此需要建立不同的敏感數據集合,根據《信息安全技術 網絡安全等級保護基本要求》(GB/T 22239-2019),需要建立強制訪問控制系統,對敏感數據進行管理。
在強制訪問控制下,系統給主體和客體指派不同的安全屬性,這些安全屬性在系統安全策略沒有改變之前是不可能被輕易改變的。系統通過檢查主體和客體的安全屬性匹配與否來決定是否允許訪問繼續進行。強制安全訪問控制基于安全標簽的讀寫策略使數據庫管理系統能夠跟蹤數據的流動,可以避免和防止大多數對數據庫有意或無意的侵害,因而,可以為木馬程序問題提供一定程度的保護,在數據庫管理系統中有很大的應用價值[2]。其典型代表是Bell-La Padula模型(簡稱 BLP模型)和 Biba 模型,也是目前應用最為廣泛的模型,能夠達到保護數據的機密性和完整性的目標。與自主訪問控制不同,用戶無權將任何數據資源,哪怕是屬于用戶自身的數據庫資源的訪問權限賦予其他的用戶,如圖1為BLP模型設計原理圖。
圖1 BLP模型設計原理
1.2 同態加密
同態加密是一種可以在不解密的情況下對密文執行各種操作的加密方法。它的操作結果與對原數據直接操作結果相同,使用這種加密方式,實現了保護數據提供者的敏感數據的同時,又可以保證數據的可用性,圖2為同態加密在大數據中應用的經典案例模型。同態加密通常用于數據收集階段而不是分析階段,因為計算處理速度非常慢,在某些情況下無法準確解密。目前有很多研究正在進行中,預計在幾年后的分析階段也可用同態加密。Gao等人[3]提出了一種隱私保護方案,該方案使數據提供商能夠通過OTP(One Time Programmable)技術和同態加密技術安全公開數據,并提出了一種較強安全性的增強隱私保護方案。Mittal等人[4]提出了一種解決云環境中用戶隱私威脅的同時進行挖掘的方法,該方法在分布式環境中使用一個較弱的同態密碼系統來保持k-均值聚類的準確性,通過安全性分析討論了所提出的方法對某些攻擊是安全的,缺點是這種方法很難在分布式云環境中應用。
圖2 大數據系統中同態加密應用模型
除了敏感數據訪問控制和同態加密技術,保護隱私數據還包括以下研究和方法。Balebako等人[5]提出了一個原型,允許用戶在Android環境下基于TaintDroid識別隱私泄露,通過將過濾的檢測隱私泄露信息發送給用戶,用戶來決定應用程序是否能共享數據。Liu等[6]提出了一種影子編碼方案,實現分布式數據的隱私安全,這是一種在采集數據時通過陰影矩陣計算來保護數據隱私,并在數據出現故障時進行恢復的方法,但該方法只能在同步環境中使用,對各種隱私保護要求的收斂性還有限制。
2 數據存儲
目前大數據系統的數據主要采取分布式云存儲方式,一般通過隱私保護技術(例如加密和屏蔽)來維護數據的完整性和機密性。并且敏感數據只能給特定的授權用戶使用,需要對敏感數據進行訪問控制。
2.1 數據加密
加密是一種將可理解的數據(明文)轉換為不可理解的形式(密文)的方法,確保只有經過授權的用戶才能使用數據。圖3是數據加密技術的處理過程,在技術上,通過數學算法將明文轉換成密文的過程,只有擁有加密密鑰的人才能將密文變成明文,數據加密仍然是確保數據機密性的最基本保護方式,很多研究是使用現有的加密方法來存儲大數據。代表性的加密算法主要分為公鑰密碼(如ABE)和對稱密碼(如AES)等。
圖3 數據加密存儲技術
ABE是一種基于對象屬性集和訪問結構進行加密和解密的公開密鑰加密方法。只有當密文的屬性與用戶屬性集匹配時才能解密,ABE分為KP-ABE和CP-ABE。KP-ABE解密的條件(如策略)包含在用戶密鑰中,CP-ABE的解密條件包含在密文中,圖4 是CP-ABE的加解密原理。Xu等人[7]提出了CP-ABE,指出了物聯網云中現有的基于屬性的加密的局限性,并解決了物聯網云環境中出現的用戶撤銷后有效訪問、臨時解密密鑰泄漏等問題。Li等人[8]提出了一種關鍵字搜索功能外包ABE算法,可以解決在云環境中使用ABE時查詢處理效率低下等缺點,該方法為每個關鍵字創建一個加密門,云服務提供商能夠在不知道關鍵字和純文本的情況下進行搜索和部分解密,具有很高的可擴展性和效率。
圖4 CP-ABE的加解密原理
AES又稱為Rijndael算法,是美國NIST采用的一種基于區塊加密的對稱密碼標準,這個標準可以替代原有的DES算法,已被多方進行安全可靠分析和全球范圍內使用,從2001年發布到現在上升為對稱密鑰加密體系中最流行的算法之一。AES適用于敏感數據的硬件和軟件加密,加密密鑰長度可擴展為128位、192位和256位,由于其加解密速度快、穩定性好,至今被廣泛應用于大數據存儲和數據庫加密當中。另外Azougaghe等人[9]提出了一種簡單的云存儲保護方法,通過AES加密存儲在云中的數據,密鑰使用EIGamal算法進行加密,并存儲在服務器中。Hussien等人[10]提出云存儲,通過AES、Hash算法和ECC保證云環境中的數據機密性和完整性。
2.2 訪問控制
存儲階段的訪問控制分為對數據的物理訪問控制和邏輯訪問控制。物理訪問控制是阻止非授權用戶接觸存儲所有物理介質,一般進行必要的安保措施解決物理訪問控制。邏輯訪問控制采取一定的訪問策略,只有經過身份驗證并具有訪問存儲數據權限的用戶才能使用數據,傳統的面向封閉環境中的訪問控制是基于角色的訪問控制(Role-Based Access Control, 即RBAC),隨著業務數據集成共享,角色呈爆炸式增長,帶來訪問控制的配置復雜度也隨之呈指數式提升,RBAC要隨需求的變化不斷進行控制策略的維護,工作量大且很難保證及時性,從而無法保證數據被安全訪問,一種新型的基于屬性的訪問控制((Attribute-Based Access Control,即ABAC)技術可以彌補RBAC的不足,成為新一代的訪問控制技術。如圖5為ABAC訪問控制模型原理圖,根據用戶屬性實時計算是否具有數據訪問權限。
圖5 基于屬性的訪問控制ABAC模型
另外Ko等人[11]提出了一個超級執行模型,該模型在計算前對數據的敏感性進行分類,在公有云中計算不敏感數據,在私有云中計算敏感數據,從而保護數據的機密性。Ngo等人[12]提出了另外一種虛擬云環境中的通用生命周期管理模型,通過將基礎設施作為服務提供者,構建支持一致信任建立、訪問控制和上下文安全管理的安全基礎設施。支持使用可擴展訪問控制標記語言中的策略配置文件進行基于角色的策略管理,并且可以通過授權票據技術解決分布式云之間共享安全上下文的問題。
3 數據分析
數據分析師可以通過強大的挖掘算法識別敏感數據,使數據所有者容易受到隱私侵犯。因此應該保護數據挖掘過程和分析結果只允許授權人員參與,需采取特定的訪問控制策略。數據分析過程中,隱私保護的效率與數據處理的效率成反比,在保護敏感數據的同時很難提高數據處理效率,因此出現了各種隱私數據挖掘保護技術來解決這一關鍵問題。
3.1 隱私數據挖掘保護
隱私數據挖掘保護中使用較為廣泛的是PPDM方法,指在不侵犯數據所有者隱私的情況下,發現數據中隱含的知識或模式的技術。PPDM有兩種類型:一種是對原始數據加噪聲或隨機化進行分析的方法,這種分析方法已被實際應用于各種統計數據,但存在一定的安全隱患。另一種采取限制數據分析師不能獲得除輸入和計算結果以外的信息的方法,但由于計算效率低不實用不被廣泛采用。為了權衡計算的安全性和實用性,需要不斷選擇PPDM方法,PPDM包括統計披露限制、關聯規則隱藏、同態加密、去身份識別和隱私模型等。
關聯規則隱藏是一種防止在分析階段創建敏感關聯規則的算法。關聯規則在各種挖掘算法中具有很高的可用性,通過關聯規則識別單個敏感數據,刪除和添加數據值等,對敏感數據進行最小修改。關聯規則隱藏算法一般分為啟發式算法、基于邊界算法等[13,14]。
去身份識別技術是一種刪除數據中的非必要特征或用其它屬性信息替換它的方法,主要目的是確保包括隱私在內的數據可以與其他數據相結合,從而無法識別特定的個人信息。在大數據生命周期的各個階段,如隱私的收集、存儲、利用和共享,都應該進行去身份識別,它包含了各種方法和算法,例如假名化是指在沒有附加信息的情況下,通過刪除或替換部分隱私而使特定的個人無法被識別的過程、聚合是將敏感數據集的值轉換為平均值或總值來防止敏感數據值被識別的一種去身份識別技術、數據約簡是一種直接擦除敏感數據的方法等。
3.2 訪問控制
數據分析階段,分析師最有可能會侵犯數據提供商的敏感數據,必須確保數據分析是由經過認證并且數據授權的數據分析師執行,需要進行適當的訪問控制策略,防止超出目的的分析,一般采取傳統的身份認證技術(如賬號密碼、生物認證技術)。
4 數據使用
分析階段將各個領域收集的數據連接起來,通過分析組合來產生更有價值的信息,數據使用階段就是利用這些重要信息幫助企業和個人預測未來。價值密度較高的數據絕大部分屬于敏感數據,如財務報表分析結果等,這些數據可能在未授權的情況下用于其他目的,決策者可能會與第三方共享敏感數據,以追求商業利益最大化,因此需要各種隱私數據發布保護技術和審計跟蹤技術來解決這種風險。
4.1 隱私數據發布保護
隱私數據發布保護技術的最重要的是PPDP模型,它可以分發給用戶數據的同時而不暴露數據主體的身份。PPDP將去身份識別和可視化技術融合使用,圖6描述了隱私保護數據PPDP模型的概念和涉及的角色,相關研究可參考文獻[15]。另外Dasgupta等人[16]提出了并行坐標下的隱私保護可視化模型,采用距離度量和位置保持聚類作為聚類算法,采用k-匿名和l-多樣性算法來保護隱私,使得用戶通過交互界面訪問數據,并提供可視化工具,討論了潛在的攻擊和威脅場景。Dasgupta等人[17]通過識別電子健康數據可視化中使用的各種可視化方法中可能發生的隱私威脅和攻擊,對相關問題進行概述,為隱私保護可視化奠定了基礎。
圖6 隱私保護數據發布(PPDP):(a)概念概述(b) PPDP場景中涉及角色的描述
4.2 審計跟蹤
數據使用階段將價值密度較高的信息向公眾展示或用于其他目的時,可能會出現各種隱私問題,因此需要記錄那些人員使用了數據,如何使用以及在哪里使用數據。當審計人員想知道使用者使用機器學習模型做出何種決策時,審計跟蹤將作為溯源追蹤的主要參考,一般在數據使用時會記錄下操作者的用戶標識、操作時間、內容、位置、對數據進行了何種操作等信息,根據機器學習模型對操作動機做出進一步預測判斷,最后由專業人員給出審計結果。Ferdous等人[18]為分布式訪問控制系統提出了一種基于區塊鏈的分散運行時監控體系結構,可以根據所使用的策略評估訪問控制是否已正確執行,并通過存儲日志和基于區塊鏈的監視來檢測策略違反情況,這種方法有一個缺點,監控可能需要很長時間。
5 數據銷毀
大數據系統中的某些數據一旦不再進行預期目的分析、長期內沒有任何訪問需求、超過生存時間戳以及存儲冗余都會進行數據銷毀。數據銷毀主要包括數據硬銷毀和數據重寫兩種方式。
數據硬銷毀是借助外力,如焚燒和粉碎等破壞存儲介質,一旦破壞將不能繼續使用,造成了一定的浪費,所以基本上沒有得到廣泛的應用。數據重寫又叫覆寫銷毀,是目前研究的主流數據銷毀技術。數據重寫技術主要是通過采用規定的無意義數據序列,利用特定的重寫規則,覆蓋磁性存儲介質上的原始數據。由于磁存儲介質具有磁殘留特性,因此會導致磁頭在進行寫操作時,每一次寫入磁場的強度都不一樣,這種差別會在寫入記錄間產生覆寫痕跡,這就使得有可能通過專業設備分析重構出數據副本。為解決這一類數據重寫的缺陷,最有效的方法就是進行多次的覆蓋寫。美軍的數據銷毀標準DOD-5220.22M便是使用了多達7次的重寫以達到銷毀效果。根據不同安全級別的需求,可采取不同強度的重寫算法。
6 小結
大數據為各行各業提供便捷和創新潛力的同時,也帶來許多安全性和隱私性問題。上篇中,我們解讀了國際標準組織制定的現行標準,并對相關研究進行分析,將大數據全生命周期劃分為五個階段(收集、存儲、分析、使用和銷毀),為讀者解讀了大數據生命周期各階段出現風險與挑戰。本篇為下篇,我們介紹了每個階段風險處置技術,數據收集階段的敏感數據訪問控制和同態加密、數據存儲階段的訪問控制和數據加密,數據分析階段的隱私數據挖掘保護、數據使用階段的隱私數據發布保護和審計跟蹤等,為當下數據安全防護工作提供參考,在未來的工作中,我們將更加明確大數據生命周期各階段的風險,并對安全技術進行分類,設計安全架構。
參考文獻
[1] Koo, J., Kang, G., & Kim, Y. G. (2020). Security and Privacy in Big Data Life Cycle: A Survey and Open Challenges. Sustainability, 12(24), 10571.
[2] Zhao, Y.; Wang, Z.; Zou, L.; Wang, J.; Hao, Y. A Linked Data Based Personal Service Data Collection and Semantics Unification Method. In Proceedings of the 2014 International Conference on Service Sciences,Wuxi, China, 22–23 May 2014. [CrossRef]
[3] Gao, W.; Yu, W.; Liang, F.; Hatcher, W.G.; Lu, C. Privacy-preserving auction for big data trading using homomorphic encryption. IEEE Trans. Netw. Sci. Eng. 2020, 7, 776–791.[CrossRef]
[4] Mittal, D.; Kaur, D.; Aggarwal, A. Secure data mining in cloud using homomorphic encryption. In Proceedings of the 2014 IEEE International Conference on Cloud Computing in Emerging Markets (CCEM),Bangalore, India, 15–17 October 2014. [CrossRef]
[5] Balebako, R.; Jung, J.; Lu, W.; Cranor, L.F.; Nguyen, C. “Little brothers watching you”: Raising awareness of data leaks on smartphones. In Proceedings of the Ninth Symposium on Usable Privacy and Security ,Newcastle, UK, 24–26 July 2013. [CrossRef]
[6] Liu, S.; Qu, Q.; Chen, L.; Ni, L.M. SMC: A practical schema for privacy-preserved data sharing over distributed data streams.IEEE T rans. Big Data2015,1, 68–81. [CrossRef]
[7] Xu, S.; Yang, G.; Mu, Y.; Liu, X. A secure IoT cloud storage system with fine-grained access control and decryption key exposure resistance. Future Gener. Comput. Syst. 2019, 97, 284–294. [CrossRef]
[8]. Li, J.; Lin, X.; Zhang, Y.; Han, J. KSF-OABE: Outsourced attribute-based encryption with keyword search function for cloud storage. IEEE Trans. Serv. Comput. 2016, 10, 715–725. [CrossRef]
[9]Azougaghe, A.; Kartit, Z.; Hedabou, M.; Belkasmi, M.; El Marraki, M. An e_cient algorithm for data security in cloud storage. In Proceedings of the 2015 15th International Conference on Intelligent Systems Design and Applications (ISDA), Marrakech, Morocco, 14–16 December 2015. [CrossRef]
[10] Hussien, Z.A.; Jin, H.; Abduljabbar, Z.A.; Hussain, M.A.; Abbdal, S.H.; Zou, D. Scheme for ensuring data security on cloud data storage in a semi-trusted third party auditor. In Proceedings of the 2015 4th International Conference on Computer Science and Network Technology (ICCSNT), Harbin, China, 19–20 December 2015. [CrossRef]
[11] Ko, S.Y.; Jeon, K.; Morales, R. The HybrEx Model for Confidentiality and Privacy in Cloud Computing. HotCloud 2011, 11, 1–5. [CrossRef]
[12] Ngo, C.; Membrey, P.; Demchenko, Y.; de Laat, C. Policy and context management in dynamically provisioned access control service for virtualized cloud infrastructures. In Proceedings of the 2012 Seventh International. Conference on Availability, Reliability and Security, Prague, Czech Republic, 20–24 August 2012. [CrossRef]
[13] Verykios, V.S.; Elmagarmid, A.K.; Bertino, E.; Saygin, Y.; Dasseni, E. Association rule hiding. IEEE Trans. Knowl. Data Eng. 2004, 16, 434–447. [CrossRef]
[14] Verykios, V.S. Association rule hiding methods. Wiley Interdiscip. Rev. Data Min. Knowl. Discov. 2013, 3,28–36. [CrossRef]
[15] Majeed, A., & Lee, S. (2020). Anonymization techniques for privacy preserving data publishing: A comprehensive survey. IEEE Access.
[16] Dasgupta, A.; Kosara, R. Adaptive privacy-preserving visualization using parallel coordinates. IEEE Trans. Vis. Comput. Graph. 2011, 17, 2241–2248. [CrossRef] [PubMed]
[17] Dasgupta, A.; Maguire, E.; Abdul-Rahman, A.; Chen, M. Opportunities and challenges for privacy-preserving visualization of electronic health record data. In Proceedings of the IEEE VIS 2014Workshop on Visualization of Electronic Health Records, Paris, France, 9–14 November 2014. [CrossRef]
[18] Ferdous, M.S.; Margheri, A.; Paci, F.; Yang, M.; Sassone, V. Decentralised runtime monitoring for access control systems in cloud federations. In Proceedings of the 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS), Atlanta, GA, USA, 5–8 June 2017. [CrossRef]