基于云應(yīng)用處理大數(shù)據(jù)的 4V 特征
基于云的應(yīng)用程序處理大數(shù)據(jù)時,被處理的大數(shù)據(jù)不僅具有高容量、高速度、多類型的3V特性,還必須輔以第四個V:準(zhǔn)確性。尤其在處理屬于他人的數(shù)據(jù)的時候。
在波士頓大數(shù)據(jù)創(chuàng)新會議上的一個對話會上,IBM云數(shù)據(jù)服務(wù)事業(yè)部產(chǎn)品開發(fā)副總裁邁克·奧羅克(Mike O’Rourke)表示,所有四個特性,包括在論證中的數(shù)據(jù)所有權(quán)的問題,在推動業(yè)務(wù)敏捷性上都各自扮演著一個重要角色。大部分現(xiàn)代云應(yīng)用處理的數(shù)據(jù)都來自外部資源,在使用前必須清理。
“開發(fā)團(tuán)隊必須敏捷,這樣他們才能迅速反應(yīng),提供應(yīng)用程序的快速更新。”他說。“這意味著,在處理大數(shù)據(jù)時,你必須有不同的思考方式。”雖然奧羅克(O’Rourke)并沒有過于發(fā)揮到引用阿甘的“生活就像一盒巧克力”的格言,但他明確表示,當(dāng)應(yīng)用程序收集、處理和存儲大數(shù)據(jù)時,你永遠(yuǎn)不知道會得到什么。因此,基于云的應(yīng)用程序的設(shè)計必須足夠靈活,以保證無論遇到何種數(shù)據(jù),運行不間斷。
奧羅克解釋4個V的概念。他說,首先,高容量是最主要的。因為云和移動應(yīng)用需要處理交互的數(shù)據(jù)量,不論是事務(wù)型數(shù)據(jù)還是流數(shù)據(jù),正從TB級到PB級飛漲。
多類型是說,應(yīng)用程序必須能處理結(jié)構(gòu)化和非結(jié)構(gòu)化的多種形式的數(shù)據(jù)。視頻數(shù)據(jù)是非結(jié)構(gòu)化的,但應(yīng)用程序必須了解其內(nèi)容。奧羅克解釋,“如果你是一個廣播公司,你不希望在有許多人喪生的嚴(yán)重車禍的影片后,廣告出現(xiàn)說,買一輛雪佛蘭車吧。這兩者放在一起違和。”
高速度,或者說動態(tài)數(shù)據(jù),正變得越來越重要,尤其是在數(shù)據(jù)容量突飛猛進(jìn)的現(xiàn)實情況下。奧羅克說,“物聯(lián)網(wǎng)通過傳感器收集的和社會化的海量數(shù)據(jù),正向我們涌來,你的應(yīng)用程序必須能夠提供實時決策。” 收集數(shù)據(jù)供以后分析或處理的概念已經(jīng)過時了,他補充道。
準(zhǔn)確性是指在處理的數(shù)據(jù)的可靠性各異的情況下(這被稱為數(shù)據(jù)的不確定性),應(yīng)用程序需表現(xiàn)出靈活性。奧羅克舉例,電池沒電或突然失去通訊聯(lián)系時,健身設(shè)備和手機傳來的數(shù)據(jù)可能突然中斷。“你的應(yīng)用程序能處理這樣的突發(fā)情況嗎?”
傳統(tǒng)上,無論是零售交易、工廠車間的工藝控制,或是保險的保費和效益跟蹤的案例,企業(yè)都是自己收集數(shù)據(jù)、自己處理。但云時代世界不一樣了。奧羅克說,“當(dāng)構(gòu)建應(yīng)用程序或做應(yīng)用分析時,可能遇到的情況是,不論你在哪間公司,大部分需要處理的數(shù)據(jù)都不是公司自己擁有的。
他舉了一個批大學(xué)工程專業(yè)學(xué)生夏天在IBM實習(xí)的例子。這些學(xué)生為紐約市搭建了一個應(yīng)用程序,用來精確定位不安全道路的位置。學(xué)生們利用的數(shù)據(jù)包括機動車交通事故、天氣、日出、日落、空氣的濕度、道路是否濕滑、道路指示牌和道路標(biāo)志的地理空間信息等。所有的數(shù)據(jù)都是公共數(shù)據(jù),來自公共領(lǐng)域。
在幾個星期內(nèi),這組學(xué)生創(chuàng)建了一個應(yīng)用程序,標(biāo)識了需要維修或重新設(shè)計具體道路的地點,司機可能會受益于更早展示警告標(biāo)志的地方,和交通信號需要改變的十字路口。
“因為大部分需要處理的數(shù)據(jù)不是你自己擁有的,所以我可以提供給開發(fā)人員的***建議是:在檢視和分析數(shù)據(jù)之前,必須有必要對數(shù)據(jù)進(jìn)行清理、標(biāo)記和儲存。” 奧羅克總結(jié)說。