大數據與云計算的驚人相似之處
大數據強調非結構化數據的挖掘,云計算強調資源高效利用,一個面向業務應用,一個面向IT管理,不說風馬不相及,但彼此交集并不多。
二者驚人相似之處并不在于內容,而在于其市場傳播和導入過程,首先二者都是舶來品,其次在開始的時候,沒有弄得明白它們是什么。
回想一下2~3年前,沒有說得清楚云計算是什么?但有很多人會告訴你,云計算不是什么,不是虛擬化,不是綠色節能。大數據也是如此,很少有人說清楚4個V是什么?有的v連個準確的中文翻譯都沒有。
現在有很多告訴你,大數據不是數據大,大數據不是Hadoop,就是沒有人愿意說大數據是什么?一句話,你說什么就是什么,可以說廣義大數據、狹義大數據、機器大數據,也可以說行業大數據。
在云計算推廣初期,從軟件到硬件、從芯片到整機,從數據中心規劃、設計到運維,人人都說自己是云計算,數據中心也被稱為云計算數據中心。如今,類似事情恐要為大數據重演,服務器、存儲、數據庫都要在大數據分一杯羹。
為什么大數據有這樣的魔力?因為和當初的云計算一樣,大數據身上有一個標簽:IT技術趨勢和方向。有此標簽,自是人人奮勇,各自當先。哪怕是為了政績,也要有所作為。
所謂“空談誤事”,還是說點實在的。為此,我也求教了北京理工大學大數據搜索與挖掘實驗室主任張華平博士。
“4個V不是大數據的定義,而是大數據的特征。大數據本質就是獲取知識。”張華平說。
談到大數據怎樣獲得,張博士表示,這都不是問題。大數據可以來自行業積累的數據,也可以一些專業的論壇和渠道。他強調,企業要重視數據積累,需要學會將管理行為數字化,例如郵件就是企業重要的數據。
“數據潛伏著知識,就需要通過大數據分析獲得。”他說。
他表示,大數據應用是一個生態環境,有提供技術,有提供分析的,也有提供分析解讀的。張博士所在的大數據搜索與挖掘實驗室就是提供技術的,他們的ICTCLAS((Institute of Computing Technology, Chinese Lexical Analysis System,漢語詞法分析系統)如今得到廣泛使用,并承諾非商業化用途永遠免費使用。
技術產品之外,張華平也在考慮推廣使用的模式,一種不同于商業互聯網的模式,一種付費使用的模式。未來可以考慮數據提交使用的模式。我們采集了大量的數據,僅微博的目標是100億條的數據,幾乎覆蓋每個人。#p#
大數據的解決之道
“知著、見微、曉意”是大數據解決之道
“數據不是多了,是少了,哪怕是錯誤的數據,也是有價值的數據。”他說。“知著、見微、曉意”是大數據的解決之道,有更多的數據等待我們去挖據其背后的知識。因此,像云計算一樣,大數據并不遙遠。