大數據:人類能源開拓歷史在IT領域的一種再現與映射
如果用非IT類媒體的報道次數或關注度,來去衡量一個IT詞匯的熱度,我相信“大數據”絕對可以算得上是當前最熱的IT詞匯,云計算肯定不是它的對手。
大數據之所以這么火熱,是因為它與普通大眾的生活之間,相較其他IT術語似乎有著更為重大,或者說更具傳奇色彩更為深厚的關系。從定向營銷,到助力美國總統大選,大數據迅速披上了神奇的外衣。而也正是因為它對于人類生活的這種顯性的影響力,讓它成為了每個生活于信息世界中的人,或多或少都要關注的方向。
僅以企業與客戶者之間的關系而言,企業主希望借助大數據來分析客戶行為規律、興趣愛好、找到目標的客戶,向潛在的客戶推送他們可能想要的信息,但另一方面消費者也會因為一些不靠譜的信息推送,來揣測相關企業的大數據的水平。除此之外,通過大數據來改變自身運營效率的企業案例,似乎也正在飛速增加著……因此,從哪個方面看,大數據也越來越有成為公從談資的資本。然而,大數據到底是什么,可能這些參與其中的人又會給出不同的說法,有技術層面上的解讀,有理念層面上的解讀,有從使用效果上的事后總結……但實話實說,與其他IT術語相比,大數據在解釋上更具多樣性與不確定性色彩。
大數據是噱頭嗎?
今天我們來談“大數據到底是什么”,并不想從技術或理念上深究,而希望能一種淺顯的描述,來***限度的達成一種對大數據的共識。其實,大數據這一概念最早成型于IDC與EMC合作的調研報告中,可是那個調研報告的側重點還在于對互聯網、物聯網、云計算等大趨勢下的數據積累、保存與管理的警示,隨后不同的廠商在這一基礎上不斷擴展、豐富并最終延伸出一個業界公認的4V屬性理論(體量Volume、種類Variety、速度Velocity、價值Value,IBM的4V理念將***一個V定義為真實Veracity),從而形成了一個閉合的大數據體系,從縱向上又總結出從硬件基礎設施到數據管理,再到數據分析,***是數據呈現等4層架構。歸根結底,大家***的共識都認為大數據最終要用服務于社會的,這是它的***用途,之前所說的積累、保存、管理、分析都是為這一目的服務的。
這么說來,對大數據的認識似乎又統一了,但也因此也使很多人對大數據概念嗤之以鼻。如果僅就大數據最終要體現出應用的價值為社會服務的話,與以前的數據挖掘、商業智能理念又有怎樣的區別呢?大數據中的體量,可能在很多場合也并不能體現出來,可能就是幾TB的數據也能把人搞得焦頭爛額,無非就是數據類型擴展而已。所以,說“大數據只是一個噱頭”并無道理。
但是,當前的一些大數據的應用案例,也的確與以往的數據倉庫應用不同,這其中可能有非結構化與結構化數據的原因,但也有一新的理念、處理模型與手段的變化。至于哪些新東西是因大數據引發的,我們在此也沒必要去糾纏,只需要解答一個核心的問題即可:數據到底是什么?#p#
數據能源?
如果說很多人追捧大數據的神奇在于,它可以將原本不起眼的歷史數據化腐朽為神奇,那么我們是不是可以將大數據比作一種通過加工而來的一種能源?如果可以,我們放眼地球上的能源,就會發現其與大數據有著太多相似之處。
地球上的能源有很多種,但是它們之所以是能源的前提在于人類對它們的認知。在遠古時期,人類因雷電引火,發現了火和木材這兩種能源,前者可用來取暖、驅獸、加工食品,后者可用來生火。在此之后,隨著人類文明的進步,科技的發達,逐漸發現了越來越多的能源,比如煤、天然氣、石油、太陽能等等,但是在人類還不能認知它們時,它們就不存在了嗎?顯然不是,在沒有人類的時候,它們就已經在地球上靜靜的等候了成萬上億年,只是人類掌握了相應的科技與工具之后,它們才得以登堂入室。
數據也是一樣,如果數據有著一個生成/采集——應用/加工——保存/管理——分析/挖掘——再保存或刪除這樣的一個周期的話,那么在其生成的那一刻起,它就存在著應有的價值,只是在于你是否有能力去發現它們。這需要新的理念、知識、技術與相應的工具。原始人即使知道地下幾十公里有石油,他們也無法開采,所謂的數據分析,道理也是一樣的。
從人類發展的歷史來看,不斷發現新的能源,是一種公理似的注定。當我們掌握了越來越先進的理念基礎,并依此開發出越來越先進的工具,出現新的驚喜可以說理所當然。就像剛發明汽車時,誰也不會想到電、水會成為汽車可行的能源。從這個角度講,當前的大數據所帶來的種種神奇,只是人類在數據收集、管理、分析等領域的一次進步而已,它有出現的必然,而非人類的一種“頓悟”。
我們再來看看地球能源的4V屬性:
1、Volume——儲量:現在已經探明的,或新探明的煤、天然氣、石油、風、太陽能等能源的儲量是相當驚人的,但遍布于多種地形、地貌中,就看人類有沒有本事都能獲取到了。
2、Variety——類別:隨著人類技術水平的進步,所獲得的能源種類也就越來越多,并且越來越多以前認為不行的資源,后來也慢慢成為了能源,放射性元素就是典型的例子,而若技術成熟,海水將成為人類用之不竭的新能源。曾經有一篇科幻論文說得好“也許未來只需要一把泥土,就能把火箭送上月球”。另一方面,不同能源所需要的開采技術與工具也各不相同,這就好比結構化數據與非結構化數據的處理手段的差別。因此,人類面對的能源類別越來越多,它也需要人類具備越來越多種類的能源開采能力。
3、Velocity——開采/轉換效率:很難想像一口一天只產一加侖的油井有什么價值,如果一個太陽能的光電轉換效率不到1%,還有使用它的必要嗎?因此,人類在能源上的開采/轉換的效率將決定這種能源的可利用性,就如果做數據分析,今天的銷售數據分析,一個月后才能出來,那不分析也罷了。
4、Value——價值:能源的價值取決于它所能提供的能量與貢獻,誰都知道95號汽油比92號汽油好,但也更貴;煤很便宜,但能提供的能量也相對較低;電能,在目前仍要通過其他能源轉換得來,這都是價值之所在。它決定于自身的屬性,與相應的數據挖掘與提煉的能力,前者相當于汽油與煤的不同,后者相當于煉油廠在95與92號之間的提煉工藝不同。它們都最終決定了數據的價值——并且像某些大數據宣傳中所鼓吹的那樣,好像任何數據用大數據分析后,就能黃土變黃金一樣,這是不可能的,除非你自己對某類數據的認知就有偏差(原本就是土,和原本就是金子,有著本質不同)
IBM所提倡的Veracity,我認為可以理解為能源的提煉水平,就算是95號汽油,中國產的能和歐美產的相提并論嗎?這就是所謂的真95與假95號的區別。另一個典型的例子就是濃縮鈾,豐度為3%的鈾235的低濃縮鈾可用于核發電,而豐度高于90%的鈾235則可以用來制造核武器,兩者的價值肯定不一樣?所以,這種提煉質量與能力上的區別也最終會體現在能源的價值上。因此,IBM強調數據分析的準確與真實,可以與能源提煉過程中的純度相對應,體現了對數據分析的一種質的要求。
圖注:IBM把大數據第4個V定義為Veracity。
說完理念的對比,再看縱向技術架構上的相似之處,大家可以想想大數據中所談到的數據采集、匯總、保存、管理、分析、呈現是不是與能源的勘探、開采、匯聚、保管、提煉、使用有著一一對應的關系呢?
特別需要指出的是,現在物聯網的一大分支——工業互聯網越來越熱,而大數據就是其***的重要支撐(前不久通用電氣還專門為此投資了Pivotal),其理念在于將各種傳感器、致動器也納入整體的信息采集體系,借助工業設備管控平臺,分析出存在于工業設備內有價值的信息,以便于管理、精度調校以及健康預警。想想看,這是不是像地質勘探中,將不同炸點的傳感信息匯總起來,再通過震蕩波分析軟件,來呈現出地下的礦產分布與結構視圖?#p#
大數據到底是什么?
話說至此,我們應該可以總結一下了——在某種角度上講,大數據其實就是人類能源開拓歷史在IT領域的一種再現與映射。
無論從理念還是實現手法上,大數據的種種說辭,都可以在人類悠久的能源勘探、開采、利用的經驗中到對應的關系,因此,從根本上講它并不新鮮。
但關鍵就在于,在IT領域,對于“數據能源”的認知水平,遠不如人類對其他類別能源的認知,所以當我們有一天終于完善了相關理念基礎,開發出相應的工具,看到了數據內部的能源之后,可能就一種當初發現石油一樣的沖動,進而將其夸大、神話。但是,仔細想想,對于已經經歷過太多這類驚喜的人類來說(火、電、煤、油、氣、核能、太陽能,哪個不給我們一個驚喜?),應該不必如此大驚小怪。
我認為,在數據利用的愿景方面,大數據與原來的數據倉庫、數據挖掘、商業智能等概念是同出一轍、一脈相承的。大數據其實是對人類在數據利用方面進入的一個新階段,它代表了一種理念(數據能源)、一種思路(從數據收集到數據分析再到數據呈現的整體構想)和一種新工具(將結構化與非結構化數據、語義與機器化數據匯聚、統一處理、分析與呈現的工具)的集合。它賦予了人類對數據認知的新能力,也進一步打開了人類的數據利用方面的想像空間。就這一點來說,全盤否定大數據,一概以噱頭蔽之,也是不可取的。
總之,我們必須明白大數據并非是從天上掉下來的,是人類IT水平發展到一定階段的必然結果,就像PC、智能手機等出現一樣,是很多相關技術互動過程中自然而然的產物。我們要從一個整體去看它,不能一上來只看到某些誘人的東西,而將這些原本很平實的信息變成了一種“傳說”。顯然,大數據現在有這種傾向,它似乎無所不能,無所不包。就像我們上文所說的那樣,如果數據本身的價值就在泥土一級的,也就不用指望它能提煉出黃金,大數據分做的只是將原本就存在的各種等級的“數據能源”真實的呈現出來而已。在可預計的未來,它將成為一種常態,一種基本的能力,就像現在的汽油一樣,每輛車不用因為燒汽油而會自豪,會成為傳奇。
所以,我認為當前的大數據熱潮應該有針對性的降降溫,讓其回歸本色,還原其實質,并將精力放在一個能源開采者所應投放的地方——數據采集的渠道是不是不夠廣?數據匯聚的能力是不是不夠強?數據管理是不是太過復雜?數據處理能力是不是太弱?數據分析太是不是不智能?數據的呈現是不是易用性與友好度不同?——其實當一件事,到***大家都要做的時候,當一種能力,大家都要具備的時候,它也就不是神話與傳奇了,大數據即是如此。