數據流通關鍵技術探究
數據流通
數據流通是指在數據供方和需方之間按照一定流通規(guī)則進行的以數據為對象的行為。數據流通在技術實現上有諸多需求,主要在數據安全、質量保障、權益分配、追溯審計和透明度等方面。
數據流通區(qū)塊鏈在保證數據流通全環(huán)節(jié)安全高效的基礎上,具有以下優(yōu)勢:不緩存數據、保護個人隱私、保護數據版權、可追溯數據來源且保證不會被篡改、有效遏制造假等。其去中心化的共識架構有效解決了數據交換和流通環(huán)節(jié)中數據歸屬不明的痛點。作為一個有安全保障的數據流通平臺,此平臺旨在支持在數據所有權不變的情況下實現數據使用權的可信流通共享。
安全屋實現數據流通
UCloud安全屋是一個數據流通平臺,它真正意義上實現了數據所有權和數據使用權的分離,并且確保數據不泄露,讓所有者安心、使用者開心。安全屋實現數據所有權和使用權分離的一整套產品技術,確保數據流通過程安全可控 ,打破數據壟斷,讓數據流通便捷安全,實現數據民主化 。
安全屋采用區(qū)塊鏈技術實現去中心化方案。安全屋精準連接了數據提供方、數據源需求方、算法提供方等,安全屋平臺聚合不同類型的算法,并充當數據坊、算法方角色,使用可信第三方(政府、第三方機構)保存所有區(qū)塊鏈記錄,起到信任背書作用。
數據流通關鍵技術
同態(tài)加密
同態(tài)加密是密碼學界廣泛研究的重要課題,Ron Rivest等在1978年以銀行為應用背景提出這一概念。同態(tài)加密是指對其加密數據進行處理得到一個輸出,將此輸出進行解密,其結果與用同一方法處理未加密原始數據得到的輸出結果一致。
考慮數據流通過程中的委托計算場景。數據持有方本身算力有限,委托第三方進行大規(guī)模數據統(tǒng)計分析計算。但數據其不能透露給第三方。因此必須對敏感數據進行加密保護。使用同態(tài)加密技術的委托計算場景涉及兩類角色,數據持有方和數據處理方,其技術方案示意圖如下所示:
數據持有方擁有原始數據,并選擇需要保護的敏感屬性。在本地生成公私鑰對后,使用生成的用戶公鑰,同態(tài)加密原始數據中的敏感屬性,得到密文文件。之后,數據持有方將密文文件發(fā)送給數據處理方,數據處理方對密文文件進行同態(tài)操作,在明文數據信息不可知的情況下,生成密文統(tǒng)計結果,此結果和明文狀態(tài)直接加密得到的處理結果一致。數據處理方得到密文統(tǒng)計結果后,將其返回給數據持有方。數據持有方接收到處理后的密文統(tǒng)計結果,使用用戶私鑰解密,獲取明文統(tǒng)計結果。
零知識證明
在分布式賬本中,需滿足群體共識特性,即各方通過共識機制確認數據的合法性,而其前提是包括個人或機構的隱私數據在內的所有數據對所有方透明可見,因此需要對共識數據進行處理。零知識證明能提升數據合法性的隱性共識,可以讓驗證方既不知道數據具體內容,又能確認該內容的是否有效或合法,其應用包括交易有效性證明、供應鏈金融、數據防偽溯源等。
考慮數據流通過程中的分布式財務數據共享場景。各企業(yè)的財政數據上鏈存儲,允許跨組織間進行標準財務記錄,改進財務報告并降低審計成本。基于分布式的財政數據記錄按照一定的標準,與傳統(tǒng)系統(tǒng)有互操作性,能改進從財務報告到審計之間的所有流程。
其技術方案示意圖如下:
在分布式賬本中,企業(yè)需將財政數據加密上鏈存儲,包括其資產負債表、上稅金額等,同時生成零知識證明π,π能證明:資產負債表中資產合計及負債與所有者權益合計等于對應各項相加總和;企業(yè)上稅金額等于企業(yè)利潤總額乘以所得稅稅率金額。其余方計算并驗證π是否成立,驗證過程中不泄露企業(yè)財政數據。若零知識證明成立,說明企業(yè)的財政數據正確可信。驗證過程中,需保證只有數據持有企業(yè)能生成此零知識證明。
群簽名
群簽名技術是一種允許一個群體中的任意成員以匿名方式代表整個群體對消息進行簽名,并可公開驗證的機制。在云環(huán)境中,用戶依賴CSP存儲數據,且沒有本地數據副本,因此確保數據正確地存儲在云中顯得尤其重要.為了減少因周期性檢查而帶來的在線負擔以及節(jié)省計算資源,引入TPA代替用戶檢查外包數據的完整性,希望通過TPA來保護數據隱私,并確保用戶數據不會泄露給TPA。
系統(tǒng)模型如圖所示,包括四個主體:用戶(Client)、云存儲服務器(CS,Cloud Server)、云組合服務器(CCS,Cloud Combiner Server)和第三方審計者(TPA,Third Party Auditor)。此方案可實現以下功能:正確性、安全有效的用戶撤銷、大數據隱私保護、身份隱私保護、多用戶更新、認證、大群組的支持。
環(huán)簽名
通常環(huán)簽名方案由密鑰生成、簽名、簽名驗證部分構成,一個環(huán)簽名方案必須滿足無條件匿名性、正確性、不可偽造性的性質。
云服務提供商對用戶進行分組管理,環(huán)簽名中,簽名者參與一個用戶組,這些用戶組中的用戶構成一個環(huán)。如果環(huán)簽名得到驗證,則可以說明簽名者來自一定范圍的群體。環(huán)中的用戶簽名時,用自己的私鑰和環(huán)中其他實體的公鑰簽名,但是不需要其他實體的參與,更不需要得到其他實體的允許。
這比其他基于合作方式的簽名要靈活得多,如群簽名需要其他實體的共同協(xié)作,而且群中有管理者,管理者的權限過大,可以暴露用戶的身份。
差分隱私
差分隱私的基本思想是對原始數據、對原始數據的轉換或者是對統(tǒng)計結果添加噪音來達到隱私保護效果,相對于傳統(tǒng)的隱私保護模型,差分隱私具有以下兩個優(yōu)點:
- 不關心攻擊者所具有的背景知識;
- 具有嚴謹的統(tǒng)計學模型,能夠提供可量化的隱私保證。
按照隱私保護技術所處的數據流通環(huán)節(jié)的不同,差分隱私技術可分為以下兩類:
- 中心化差分隱私技術;
- 本地化差分隱私技術。
數據采集差分保護
由于移動設備功能的不斷強大,數據收集者可以將數據采集的任務分配給不同用戶,然而這種數據采集一般與個人行為信息相關,當用戶參與數據采集時,不可避免地存在泄露個人敏感信息的風險。
如圖所示,每個用戶首先對數據進行隱私化處理,再將處理后的數據發(fā)送給數據收集者,數據收集者對采集到的數據進行統(tǒng)計,以得到有效的分析結果,在對數據進行統(tǒng)計分析的同時,保證個體的隱私信息不被泄露。
數據輸出差分隱私保護技術方案
面向公眾公開發(fā)布數據或數據本身非常敏感時,如果直接向使用者輸出數據,可能帶來嚴重的隱私泄露問題,因此在輸出數據應集中利用差分隱私技術對數據進行保護。如圖所示,服務端在將數據提供給數據使用方之前,需用差分技術對數據集中進行擾動處理,添加拉普拉斯噪聲或指數噪聲,保證數據可用性的同時,確保個體的隱私信息不被泄露。
隱私保護數據共享
數據共享中存在一個重要的課題,就是如何在共享中避免用戶數據隱私的泄露。隱私保護的數據共享技術應運而生,其目標就是在保護數據隱私的前提下,盡可能的保留具有挖掘價值的信息。
在隱私保護的數據共享中,存在數據提供者和數據挖掘平臺兩者角色。多個數據提供者對數據進行隱私保護處理之后,把數據輸出至數據挖掘平臺,在該平臺上完成數據融合、分析、挖掘。
隱私保護的數據共享,主要分為兩個方向:隱私保護的數據處理和基于安全環(huán)境的數據共享。
- 隱私保護的數據處理
其目標是在保護數據隱私的前提下,盡可能的保留數據挖掘的信息。
- 基于安全環(huán)境的數據共享
是指在數據挖掘平臺方,構建一個各方都信任的安全計算環(huán)境,安全環(huán)境保證參與計算的敏感數據不會輸出并且無法被外部進程竊取。各個數據提供者,把數據進行加密后,傳輸到數據挖掘平臺,然后在安全計算環(huán)境中,對數據進行解密,然后進行數據的分析與建模。
總結
法律法規(guī)均對大數據的安全提出了嚴格要求,在發(fā)展大數據業(yè)務之前,必須建立完善的大數據安全管控體系,實現大數據從采集、傳輸、存儲、分析、發(fā)布等全生命周期的安全風險管控,避免因為大數據被誤用濫用或泄露帶來的風險。
同態(tài)、零知識證明、群簽名、環(huán)簽名、差分隱私保護、隱私保護數據共享等是目前數據安全領域、數據流通領域的研究熱點,隨著各項技術發(fā)展及在越來越多的場景中落地應用,數據流通在實際應用場景中將發(fā)揮更大的價值。
UCloud 基于安全管理、區(qū)塊鏈及多方安全計算的安全屋平臺,實現了在原始數據對除數據持有者外其他方均不可見的情況下,經過協(xié)同計算對數據進行聯(lián)合分析之后,輸出需求方所需的分析結果,確保數據在安全地前提下流通共享。