區塊鏈在大數據中的應用
背景
近些年,大數據技術在科學和工業領域的應用引起了業界的廣泛關注,大數據促進社會進步的同時,也帶來很多的問題和挑戰,尤其是大數據治理和隱私保護問題。區塊鏈技術具備去中心化、不可篡改、透明化等特征,在改善大數據安全服務方面具有巨大的潛力。在本文中,我們首先為讀者介紹區塊鏈大數據技術概念、特性以及二者結合的動機,接著介紹區塊鏈大數據在工業界的應用,最后對一些代表性的項目進行分析。
區塊鏈大數據概述
區塊鏈
隨著比特幣為代表的新型數字貨幣的快速發展,作為比特幣底層支撐的區塊鏈技術引起了人們的關注,區塊鏈概念首次提出是在比特幣白皮書中[2]。區塊鏈本質上是一個共享數據庫,與傳統的中心化數據庫相比,區塊鏈通過采取分布式數據存儲、P2P傳輸、共識機制、加密算法和智能合約等傳統技術,使得區塊鏈具有去中心化、不可篡改、可溯源、多方維護、公開透明等特點[3]。基于這些特點,區塊鏈奠定了堅實的“信任”基礎,創造了可靠的“合作”機制,具有廣闊的運用前景。
大數據
大數據技術起源于2000年前后互聯網的高速發展時期。伴隨著時代背景下的數據特征的不斷演變以及數據價值釋放需求的不斷增加,大數據已逐步演進成針對大數據的多重數據特征,圍繞數據采集、存儲、處理計算,同時配套的數據治理、數據分析、數據安全等助力數據價值釋放的周邊技術組合形成的整套技術生態。如今大數據技術已經發展成覆蓋面龐大的技術體系。圖1展示了大數據技術體系圖譜及相關代表性的大數據開源軟件。
圖1 大數據技術體系及主要開源框架
大數據時代,客戶更傾向于在線交易,每天將產生大量的交易信息,累計的數據呈指數增長,為行業了解客戶的需求、購買模式和客戶趨勢創造了新的機會。大數據具有體量大、時效性高、數據源異構多樣和價值高等特點。通過大數據技術分析各類數據信息,將產生巨大的價值,指導國家和企業決策。大數據技術便利人類生活的同時,也帶來了很多的問題與挑戰,如數據隱私安全問題,臟數據處理、數據源可靠性驗證、數據共享等。
區塊鏈、大數據結合動機
大數據技術在解決當下許多問題方面具有巨大的潛力,目前政府、國私企正大力投資建設部門的大數據中心,以此來提高對外的服務質量。區塊鏈技術具備的很多獨特性質,可以用于解決以上大數據面臨的這些挑戰。
區塊鏈和大數據技術結合動機的詳細描述如下:
保障數據的安全:區塊鏈以其不可篡改,可信任何公開透明性,讓更多的數據安全流動起來。典型案例是區塊鏈如何推動大數據基因測序,區塊鏈大數據測序利用私鑰限制訪問權限,降低了利用法律限制個人獲取基因數據的局限性,并且利用分布式計算資源,高效完成測序任務,區塊鏈的安全性解決了基因測序的工業化問題,推動了數據的安全流動。
保障數據隱私的安全:政府掌握了大量的高密度、高價值數據,如人口數據、金融數據、醫療數據等,正確使用政府數據將對整個經濟社會發展產生不可估量的推動力,開放數據是大勢所趨。然而,數據開放主要的問題是如何保護個人隱私。基于區塊鏈的數據脫敏技術能保證數據隱私性,為隱私保護下的數據開放提供了解決方案。數據脫敏技術主要采用哈希處理等加密算法,例如、基于區塊鏈技術的Enigma系統,在不訪問原始數據的情況下進行運算,可以對數據的私密性進行保護,杜絕數據共享中的隱私安全。
保障數據存儲的安全:區塊鏈網絡中所有節點參與計算,相互驗證其信息的真偽以達成全網共識。區塊鏈的數據是不可篡改的、記錄歷史的,修改區塊鏈網絡中的數據至少需要修改50%節點的數據,區塊鏈的不變性確保了存儲在區塊鏈網絡中的數據是可靠的,使得數據庫的發展進入新時代。
保障數據完整性:數據的訪問者可能會篡改大數據中的記錄,從而影響大數據分析預測的結果,區塊鏈技術通過采取多簽名私鑰、加密技術和安全多方計算技術來保障數據不完整性。數據首先通過哈希計算,放置在區塊鏈上,再使用數字簽名技術,一方面使得數據僅對授權用戶開放,使用者通過簽名驗證數據的完整性。
區塊鏈大數據應用
如圖2所示,通過調查大數據環境下區塊鏈技術的應用,包括大數據的采集、存儲、分析和隱私保護等,區塊鏈通過共識算法確保數據的完整性。接下來重點分析了區塊鏈大數據服務中的兩個子領域應用,區塊鏈大數據收集架構:移動感知(Mobile crowdsensing,MCS)區塊鏈,區塊鏈大數據傳輸/共享架構:邊緣網絡區塊鏈。
圖2 大數據環境下區塊鏈的應用概覽
MCS區塊鏈
數據采集是數據處理生命周期中一項非常重要的任務,目前數據源和通信鏈路面臨各種惡意攻擊和威脅。因此安全的數據收集方法對于各種數據至關重要,目前全球已完成了幾項數據收集安全的研究工作。例如,基于區塊鏈的安全大數據收集方案被應用到移動感知(Mobile crowdsensing,MCS)項目。隨著移動終端(mobile terminals,MT)和傳感器等便攜式智能移動終端設備的快速增長,MCS已經有效地應用到工業物聯網當中,MCS服務器發布一些與傳感器相關的數據集,并選擇特定區域的MT來完成特定任務。任務的主要挑戰是MT中傳感設備的發送數據范圍以及MT之間數據的安全共享。Liu[4]等提出了一個基于區塊鏈和強化學習(DRL)的框架來克服這些挑戰,每個MT基于分布式區塊鏈的DRL方法為傳感設備提供了多點發送功能以及最大傳輸范圍。以太坊區塊鏈平臺用于保障數據的可靠性和安全性,MT進行共享數據。以太坊會維護一個安全賬本,并在沒有受信任的第三方情況下與合作的MT共享數據,該框架還集成了預防多種攻擊和處理常見的設備故障的功能。
邊緣網絡區塊鏈
區塊鏈具有去中心化和不可篡改的特性,能提供大數據的安全傳輸,支持可靠數據共享。傳輸安全關鍵在于如何解決傳統傳輸協議中存在的不足,如何防止數據被盜、數據丟失。目前國內外,有一些研究致力于使用區塊鏈來支持大數據的傳輸和共享,隨著邊緣網絡中數據量越來越大,邊緣網絡中敏感數據的安全共享是一項具有挑戰的任務,Xu[5]等通過共識算法提高邊緣網絡認證計算的效率。此外,為了減少響應時間和存儲開銷,作者引入了一種基于區塊鏈的無效事務過濾算法,使得訪問者可以通過緩存層來訪問數據。最后作者提出了快速交易和空心快,以提高模型的網絡傳輸效率。應用層如圖3所示,將采集到的數據報告、數據庫、社交媒體或輔助小工具數據添加到帶有簽名和哈希值的區塊鏈中,采取一致共識算法和無效事務過濾算法進行處理,然后與數據分析服務共享區塊數據。實時分析模塊進行數據可視化、模式預測,相互協作保障計算結果的真實可靠。
圖3 區塊鏈大數據安全傳輸/共享架構
小結
區塊鏈被稱為一種顛覆性的技術、數字化的分布式賬本、本質上又是一種共享數據庫,公開透明的按照順序的記錄比特幣等加密貨幣的交易,具有很多優勢。大數據是互聯網時代的產物,區塊鏈與大數據技術的結合成為當下的熱點,在本文中,主要介紹了區塊鏈和大數據的概念以及優點,通過現有的相關調查,了解現有研究在區塊鏈和大數據方面的貢獻以及二者結合的動機,討論了目前區塊鏈大數據在工業界的一些應用,最后對本文進行總結。
參考文獻
[1] Deepa, N., Pham, Q. V., Nguyen, D. C.,Bhattacharya, S., Prabadevi, B., Gadekallu, T. R., ... & Pathirana, P. N.(2022). A survey on blockchain for big data: approaches, opportunities, andfuture directions. Future Generation Computer Systems.
[2] Nakamoto, S. (2008). Bitcoin: Apeer-to-peer electronic cash system. Decentralized Business Review, 21260.
[3] 沈鑫, 裴慶祺, & 劉雪峰. (2016). 區塊鏈技術綜述. 網絡與信息安全學報, 2(11), 11-20.
[4] Liu, C. H., Lin, Q., & Wen, S.(2018). Blockchain-enabled data collection and sharing for industrial IoT withdeep reinforcement learning. IEEE Transactions on Industrial Informatics,15(6), 3516-3526.
[5] Xu, C., Wang, K., Li, P., Guo, S., Luo,J., Ye, B., & Guo, M. (2018). Making big data open in edges: Aresource-efficient blockchain-based approach. IEEE Transactions on Parallel andDistributed Systems, 30(4), 870-882.