淺談大數據平臺安全風險與建設
大數據平臺安全伴隨著大數據平臺而生。隨著互聯網和大數據應用的普及,新聞頭條上發布的數據泄露、濫用、詐騙層出不窮,引發了一系列發人深思的社會事件和問題。
本文主要分三個部分:
- 大數據發現面臨的安全挑戰
- 大廠大數據安全實踐
- 總結
本文以大數據發展面臨的安全挑戰開篇。
一、大數據發現面臨的安全挑戰
(1)傳統安全保護手段失效:大數據應用使用開放的分布式計算和存儲框架來提供海量數據分布式存儲和計算服務。新技術、新架構、新型攻擊手段帶來新的挑戰,使得傳統的安全保護手段暴露出嚴重的不足。
(2)大數據平臺安全機制缺陷:Hadoop生態架構在設計初期對用戶身份鑒別、訪問控制、密鑰管理、安全審計等方面考慮較少,并且大數據應用中多采用第三方開源組件,對這些組件缺乏嚴格的測試管理和安全認證。
(3)數據應用訪問控制難度大:有在大廠工作經驗的人都知道,數據應用有報表類、運營類、取數類等等,各類數據應用通常要為不同身份和目的的用戶提供服務,在身份鑒別、訪問控制、審計溯源上都帶來了巨大的挑戰。
(4)數據量大、潛在價值高,極易成為攻擊目標:大數據平臺處理環節多,需要針對數據采集、傳輸、存儲、處理、交換和銷毀等生命周期各階段進行安全防護,在不同階段采取適合的安全技術保護機制。
(5)數據濫用或偽脫敏風險增長:隨著數據挖掘、機器學習、人工智能等學科領域技術研究的深入,數據濫用情況加劇。并且很多公開說明脫敏或者匿名處理的數據,有可能分析出對應的真實明細信息。
(6)數據所有者權限問題突顯:數據共享和流通是大數據發展的關鍵,但是在很多大數據應用場景中,存在數據所有權不清晰的情況,例如:數據挖掘分析人員會對原始數據進行處理,分析出新的數據,這些數據的所有權到底屬于原始數據所有方還是數據挖掘方,這個問題還很多場景下還沒有定論。
(7)大數據安全法規標準不完善:不論是在公司內部還是國家范圍內,大數據應用的使用促進了經濟的發展,數據價值的最大化。然而要推進大數據健康發展,要加強政策、監管、法律的統籌協調,加快法律法規建設。
二、大廠大數據安全實踐
看到上述如此多的挑戰。大家是不是對大廠的大數據安全實踐充滿了好奇,廢話不多說,下面直插主題:
2.1阿里云大數據安全管控體系架構

核心安全措施:
- 訪問控制和隔離:實施多租戶訪問隔離措施,數據安全分類分級劃分,支持基于標簽的強制訪問控制,提供基于ACL的數據訪問授權模型,提供數據視圖的訪問控制。
- 敏感信息保護:提供數據脫敏和加密功能。
- 密鑰管理和鑒權:提供統一的密鑰管理和訪問鑒權服務,支持多因素鑒權模型。
- 安全審計:提供數據訪問審計日志。
- 數據血緣:支持數據血緣追蹤,可跟蹤數據流向。
- 審批和預警:支持數據導出控制,支持人工審批或系統預警;提供數據質量保障系統,對交換的數據進行數據質量評測和監控預警。
- 數據生命周期管理:提供從采集、存儲、使用、傳輸、共享、發布、銷毀等基于數據生命周期的技術和管理措施
2.2螞蟻金服大數據安全防護體系

核心安全措施:
- 持續進行數據安全頂層治理:數據安全策略à數據安全管理à數據安全執行。
- 建立健全數據安全制度流程:確保在業務運營過程中的數據安全風險可控,數據使用有章可循。
- 建立數據安全內控體系和審計監督機制:通過統一身份管理、統一健全、統一日志等方式建立體系化的審計監督機制,利用大數據風險分析技術,建立數據使用異常分析控制,及時識別業務運營過程中的數據使用風險。
- 建立以數據為中心的風險管理體系:從數據、人員、產品三個方面重點進行風險管理體系建設。數據方面,覆蓋采集、分析處理、輸出等多個大學虎踞管理重點;人員方面,建立了信息安全評分及員工行為風險量化機制,準確識別和管控員工使用、處理數據過程中的各維度風險;產品方面,對用戶隱私進行全方位保護。
- 構建生態數據安全賦能產品,聯合生態伙伴,共同提升生態數據安全能力:在與合作伙伴合作的過程中,建立一套完整的合作伙伴數據安全風險識別機制,通過敏感數據檢測、調用歷史基線偏離、離群行為等大數據異常檢測技術,實現對生態或作伙伴的敏感信息泄露等風險的監控。也通過差分隱私和K匿名等技術措施提升個人隱私和數據安全保障能力。并將該能力產品化賦能生態企業。
2.3中國移動大數據安全保障體系

核心安全措施:
- 安全策略體系:從頂層設計層面明確安全保障工作總體要求及方向指南。
- 安全管理體系:通過管理制度建設,明確運營方安全主體責任,落實安全管理措施。
- 安全運營體系:通過定義運營角色,明確運營機構安全職責,實現對大數據業務及數據的全流程、全周期安全管理。
- 安全技術體系:公司開展大數據安全防護建設相關要求和實施方法,體系設計涵蓋數據流轉各環節數據安全防護通用技術要求、大數據平臺各類基礎設施及應用組件安全基線配置能力要求等。
- 安全合規評測體系:包括安全運營管理合規評測和安全技術合規評測方法、評測手段和評測流程。
- 大數據服務支撐體系:基于大數據資源為信息安全保障提供支撐服務,開展大數據在安全領域的研究及推廣應用,為公司信息安全治理提供新型技術手段,并支撐對外安全服務,實現數據增值。
2.4IBM Security Guardium 數據安全保護體系

核心安全措施:
對來自各種應用和用戶的hadoop和nosql的數據訪問進行全面實時監控。在應用或用戶違反安全策略時進行實時預警并在SIEM儀表盤中顯示警告信息。
- 通過審計和報告方式來滿足合規要求并能提供法律所要求的合規證據。
- 對高流量、高速度、多類型的大數據進行全面的變更管理。
- 對企業的全部數據(數據庫、應用、文件、大數據)等進行集中式、自動化的管控。
- 通過加密、屏蔽、掩碼等方式保護敏感數據。
- 評估和解決大數據環境中的漏洞,保證大數據系統自身是安全的。
2.5Microsoft大數據安全框架

核心安全措施:
1)網絡安全:企業管理員可在虛擬網絡 (VNET) 中創建群集,并使用網絡安全組 (NSG) 限制對虛擬網絡的訪問。只有入站 NSG 規則中允許的 IP 地址才能與 HDInsight 群集通信。
2)身份認證:提供基于 Active Directory 的身份驗證、多用戶支持和基于角色的訪問控制。
3)授權:管理員可以配置基于角色的訪問控制 (RBAC) 來確保ApacheHive、HBase和 Kafka的安全性,只需使用 Apache Ranger 中的這些插件即可。可以通過配置 RBAC 策略將權限與組織中的角色相關聯。
4)審核:管理員可以查看和報告對 HDInsight 群集資源與數據的所有訪問,跟蹤對資源的未經授權或非故意的訪問。管理員還可以查看和報告對在 Apache Ranger 支持的終結點中創建的訪問控制策略進行的所有更改。
5)加密:應對數據加密。
三、結束語:
綜上所述,結合筆者自己的實踐,大數據平臺安全建設應根據平臺規模、大數據安全建設人員投入數量、歷史案件比例等因素做調整,最合適的是才是最好的。
- 最基本需要具備:權限管理、訪問控制、審計溯源、下載管控;
- 進階需要具備:賬號體系管理、資源管理(資源呈現與檢索)、數據管理(分類分級、脫敏、加密、血緣、標簽和敏感數據識別等);
- 高階需要具備:統一配置管理、統一運維管理、統一告警管理、大數據代碼審計產品。
上述僅代表個人當前意見,如有異議可以多溝通多交流。