大數(shù)據(jù)與區(qū)塊鏈的聯(lián)系 總算搞懂了
今天,很多人還沒弄懂大數(shù)據(jù),區(qū)塊鏈又來了。區(qū)塊鏈與大數(shù)據(jù)究竟有著怎樣的關(guān)系?進(jìn)入大數(shù)據(jù)時(shí)代,云計(jì)算成為大數(shù)據(jù)基礎(chǔ)設(shè)施,也使得大數(shù)據(jù)的核心思想和云計(jì)算一脈相承。大數(shù)據(jù)和區(qū)塊鏈兩者之間有個(gè)共同的關(guān)鍵詞:分布式,代表了一種從技術(shù)權(quán)威壟斷到去中心化的轉(zhuǎn)變。
區(qū)塊鏈讓數(shù)據(jù)真正“放心”流動(dòng)起來
區(qū)塊鏈以其可信任性、安全性和不可篡改性,讓更多數(shù)據(jù)被解放出來。用一個(gè)典型案例來說明,即區(qū)塊鏈?zhǔn)侨绾瓮七M(jìn)基因測(cè)序大數(shù)據(jù)產(chǎn)生的。區(qū)塊鏈測(cè)序可以利用私鑰限制訪問權(quán)限,從而規(guī)避法律對(duì)個(gè)人獲取基因數(shù)據(jù)的限制問題,并且利用分布式計(jì)算資源,低成本完成測(cè)序服務(wù)。區(qū)塊鏈的安全性讓測(cè)序成為工業(yè)化的解決方案,實(shí)現(xiàn)了全球規(guī)模的測(cè)序,從而推進(jìn)數(shù)據(jù)的海量增長(zhǎng)。
分布式的儲(chǔ)存
大數(shù)據(jù),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)需要應(yīng)對(duì)海量化和快增長(zhǎng)的存儲(chǔ),這要求底層硬件架構(gòu)和文件系統(tǒng)在性價(jià)比上要大大高于傳統(tǒng)技術(shù),能夠彈性擴(kuò)張存儲(chǔ)容量。
區(qū)塊鏈,是比特幣的底層技術(shù)架構(gòu),它在本質(zhì)上是一種去中心化的分布式賬本。區(qū)塊鏈技術(shù)作為一種持續(xù)增長(zhǎng)的、按序整理成區(qū)塊的鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu),通過網(wǎng)絡(luò)中多個(gè)節(jié)點(diǎn)共同參與數(shù)據(jù)的計(jì)算和記錄,并且互相驗(yàn)證其信息的有效性。從這一點(diǎn)來說,區(qū)塊鏈技術(shù)也是一種特定的數(shù)據(jù)庫技術(shù)。由于去中心化數(shù)據(jù)庫在安全、便捷方面的特性,很多業(yè)內(nèi)人士看好其發(fā)展,認(rèn)為它是對(duì)現(xiàn)有互聯(lián)網(wǎng)技術(shù)的升級(jí)與補(bǔ)充。區(qū)塊鏈則是純粹意義上的分布式系統(tǒng)。
分布式計(jì)算
大數(shù)據(jù)的分析挖掘是數(shù)據(jù)密集型計(jì)算,需要巨大的分布式計(jì)算能力。節(jié)點(diǎn)管理、任務(wù)調(diào)度、容錯(cuò)和高可靠性是關(guān)鍵技術(shù)。Google是這種分布式計(jì)算技術(shù)的代表,通過添加服務(wù)器節(jié)點(diǎn)可線性擴(kuò)展系統(tǒng)的總處理能力,在成本和可擴(kuò)展性上都有巨大的優(yōu)勢(shì)?,F(xiàn)在,除了批計(jì)算,大數(shù)據(jù)還包括了流計(jì)算、圖計(jì)算、實(shí)時(shí)計(jì)算、交互查詢等計(jì)算框架。
區(qū)塊鏈的共識(shí)機(jī)制,就是所有分布式節(jié)之間怎么達(dá)成共識(shí),通過算法來生成和更新數(shù)據(jù),去認(rèn)定一個(gè)記錄的有效性,這既是認(rèn)定的手段,也是防止篡改的手段。區(qū)塊鏈主要包括四種不同的共識(shí)機(jī)制,適用于不同的應(yīng)用場(chǎng)景,在效率和安全性之間取得平衡。以比特幣為例,采用的是“工作量證明”,只有在控制了全網(wǎng)超過51%的記賬節(jié)點(diǎn)的情況下,才有可能偽造出一條不存在的記錄。
大數(shù)據(jù)與區(qū)塊鏈的不同點(diǎn)
2011年,“大數(shù)據(jù)”***次上榜,位于技術(shù)萌芽期的爬坡階段,當(dāng)時(shí)還統(tǒng)稱為“Big Data and Extreme Information Processing and Management”(“大數(shù)據(jù)”和極端信息處理和管理)。2012年更進(jìn)一步,并在2013年幾乎達(dá)到了過熱期頂峰。經(jīng)歷了2014年的下滑,從2015年開始,“大數(shù)據(jù)”突然從曲線中消失,可解讀為Gartner對(duì)大數(shù)據(jù)的定位已從“新興”轉(zhuǎn)為“主流”。當(dāng)前,大數(shù)據(jù)對(duì)于企業(yè)的意義已從能力要素上升為戰(zhàn)略核心。相對(duì)而言,“區(qū)塊鏈”直到2016年才***次出現(xiàn)在《技術(shù)成熟度曲線》中,并直接進(jìn)入“過熱期”。總的來看,“大數(shù)據(jù)”和“區(qū)塊鏈”所處的生命周期階段大不相同,兩者約有5年左右的差距。
大數(shù)據(jù)通常用來描述數(shù)據(jù)集足夠大,足夠復(fù)雜,以致很難用傳統(tǒng)的方式來處理。區(qū)塊鏈能承載的信息數(shù)據(jù)是有限的,離“大數(shù)據(jù)”標(biāo)準(zhǔn)還差得很遠(yuǎn)。
大數(shù)據(jù)與區(qū)塊鏈的差異
- 結(jié)構(gòu)化 vs 非結(jié)構(gòu)化:區(qū)塊鏈?zhǔn)墙Y(jié)構(gòu)定義嚴(yán)謹(jǐn)?shù)膲K,通過指針組成的鏈,典型的結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)需要處理的更多的是非結(jié)構(gòu)化數(shù)據(jù)。
- 獨(dú)立 vs 整合:區(qū)塊鏈系統(tǒng)為保證安全性,信息是相對(duì)獨(dú)立的,而大數(shù)據(jù)著重的是信息的整合分析。
- 直接 vs 間接:區(qū)塊鏈系統(tǒng)本身就是一個(gè)數(shù)據(jù)庫,而大數(shù)據(jù)指的是對(duì)數(shù)據(jù)的深度分析和挖掘,是一種間接的數(shù)據(jù)。
- 數(shù)學(xué) vs 數(shù)據(jù):區(qū)塊鏈試圖用數(shù)學(xué)說話,區(qū)塊鏈主張“代碼即法律”,而大數(shù)據(jù)試圖用數(shù)據(jù)說話。
- 匿名 vs 個(gè)性:區(qū)塊鏈?zhǔn)悄涿?公開賬本,匿名擁有者,相對(duì)于傳統(tǒng)金融機(jī)構(gòu)的公開賬號(hào),賬本保密),而大數(shù)據(jù)有意的是個(gè)性化。
在區(qū)塊鏈中使用大數(shù)據(jù)技術(shù)
- 區(qū)塊鏈?zhǔn)且环N不可篡改的、全歷史的分布式數(shù)據(jù)庫存儲(chǔ)技術(shù),巨大的區(qū)塊鏈數(shù)據(jù)集合包含著每一筆交易的全部歷史,隨著區(qū)塊鏈技術(shù)的應(yīng)用迅速發(fā)展,數(shù)據(jù)規(guī)模會(huì)越來越大,不同業(yè)務(wù)場(chǎng)景區(qū)塊鏈的數(shù)據(jù)融合會(huì)進(jìn)一步擴(kuò)大數(shù)據(jù)規(guī)模和豐富性。
- 區(qū)塊鏈以其可信任性、安全性和不可篡改性,讓更多數(shù)據(jù)被解放出來,推進(jìn)數(shù)據(jù)的海量增長(zhǎng)。
- 區(qū)塊鏈的可追溯性使得數(shù)據(jù)從采集、交易、流通,以及計(jì)算分析的每一步記錄都可以留存在區(qū)塊鏈上,使得數(shù)據(jù)的質(zhì)量獲得***的強(qiáng)信任背書,也保證了數(shù)據(jù)分析結(jié)果的正確性和數(shù)據(jù)挖掘的效果。
- 區(qū)塊鏈能夠進(jìn)一步規(guī)范數(shù)據(jù)的使用,精細(xì)化授權(quán)范圍。脫敏后的數(shù)據(jù)交易流通,則有利于突破信息孤島,建立數(shù)據(jù)橫向流通機(jī)制,形成“社會(huì)化大數(shù)據(jù)”。基于區(qū)塊鏈的價(jià)值轉(zhuǎn)移網(wǎng)絡(luò),逐步推動(dòng)形成基于全球化的數(shù)據(jù)交易場(chǎng)景。
- 區(qū)塊鏈提供的是賬本的完整性,數(shù)據(jù)統(tǒng)計(jì)分析的能力較弱。大數(shù)據(jù)則具備海量數(shù)據(jù)存儲(chǔ)技術(shù)和靈活高效的分析技術(shù),極大提升區(qū)塊鏈數(shù)據(jù)的價(jià)值和使用空間。