大數據熱中的冷思考
時下,大數據熱持續升溫,大數據一詞已成為各種公開場合中最為炙手可熱的關鍵詞。大數據熱已成為一股洶涌澎湃的潮流,于是乎,各種大數據概念滿天飛,人人都在談論大數據,仿佛你的發言中沒有提到大數據,你的成果中沒有應用到大數據,那你就徹底OUT了。
歷史反復告訴我們:當一件事情持續過熱,承受了名過其實的追捧,就必然會產生泡沫。是泡沫就會有破裂的一天,事實必然會隨著泡沫的破裂而恢復到本來面目。總的來說,近年來涌現的一些新的大數據技術的確促進了數據處理能力的大幅提高,但也應該注意的是,伴生著大數據的發展也產生了一些不良現象,比如:炒作概念,無中生有;似懂非懂,濫用數據;盲目跟風,浪費資源等。這些不良現象應引起我們足夠的重視。
現象本質大數據概念的提出是在2008年,數據科學家維克托·邁爾-舍恩伯格及肯尼斯·庫克耶在《大數據時代》一書中提出:大數據不用隨機分析法(抽樣調查)這樣的捷徑,而使用所有數據進行分析處理。2012年,IBM商業價值研究院與牛津著名的賽德商學院聯合發布了一份題為《分析:大數據在現實世界中的應用》的報告,報告中用四個V來確定大數據,即:數量(volume)、多樣性(variety)、速度(velocity)和精確性(veracity)。
從專業的角度看,大數據這個概念是一個很不科學嚴謹的概念,具有很大的模糊性,但正因如此,給外界留下了很大的想象空間。隨著互聯網技術的高速發展,數據的形態越來越復雜,對數據的使用要求更是五花八門。在不同的場景下,大數據這個詞匯似乎成了一個筐,什么都可以往里裝。這一概念不但看起來“高大上”,而且科技感十足,想象空間足夠大,因此備受推崇。政府部門出于拉動GDP等因素考慮,覺得大的項目往往更容易得到重視和青睞,因此力推大數據。與此同時,一些商業組織出于商業利益考慮,也樂于炒作大數據概念。比如在資本市場上,有哪只股票要是成為大數據概念股,市值很容易就會大幅提升;哪家創業公司如果跟大數據貼上邊,就會受到風投公司的追捧。而上下游產業的IT公司更是樂見大數據熱現象持續蔓延,因為大數據往往意味著大投資、大生意、大客戶,相關軟件和硬件的銷量自然急劇增加,毫不費力賺得盆滿缽滿。于是,一場以大數據為名的運動在全社會轟轟烈烈地開展起來。
對企業的危害大數據是一柄雙刃劍,用得好會給企業創造價值,用不好不但會成為企業的負擔,反而還可能會成為誤導。具體說來,濫用大數據的危害性有以下幾點。
1、導致錯誤的評價有這樣一個笑話,某大學年度調查統計顯示,本校計算機系的女同學中,50%都嫁給了該校的男性老師。該消息一經公布,立即引起校內外的巨大反響,人們對師生戀、校園戀議論紛紛,很多人說是某校的炒作。經幾次調查核實,該消息確實是真實有效的。原來該大學計算機系只有兩名女生,其中一名女生和計算機系老師相戀結婚,由此得來的50%是真實數據。
這個笑話不但反映了使用片面的數據造成的危害,而且揭露出一部分人過于迷信數據的心理。數據雖然是客觀和科學的,但怎么使用和看待數據卻是人的問題。如果有些別有用心的人利用大眾對于大數據盲目迷信的心理來誤導大家,那么這種披著權威外衣的欺騙甚至要比不用大數據更能導致嚴重后果。
2、導致錯誤的決策數據的***商業價值在于預測,現在的企業越來越傾向于使用大數據得出的結論作為未來的決策依據。盡管如此,仍有不少數據分析專家認為,當企業開始搞大數據的時候,他們就走上了一條不歸路,數據越大,其中枝節越多,錯誤也就越多。數據科學家Vincent Granville在《大數據的詛咒》里寫道:“這并不難解釋。例如即使數據集之中只包括1000個因子,那這些因子之間的相關關系數量就高達***別。這也就意味著一些因子之間的關系可能完全是隨機的,以此來建預測模型,你會輸得很慘。”
3、投資與收益嚴重倒掛大數據既然“大”字當頭,自然投資成本不會小。在硬件層面上,要投入比以往系統多得多的主機、存儲、網絡設備以及相關配件,由于設備數量的增加還會造成大量的用電負荷以及占用大量機房場地空間,對布線、空調等相關配套的需求也急劇增加;在軟件層面上,雖然操作系統和數據庫等底層可以找到越來越多的開源軟件可替代,但那些針對數據挖掘和數據分析以及分布式存儲的軟件是永遠也不可能免費的,而且普遍價格高昂;在維護成本方面,由于大量使用開源軟件,大數據所帶來的大集群以及低穩定性需要付出更多的人力成本。
可見,大數據必然是大手筆的投入,然而這種大投入能不能帶來大產出就是另一回事了。對于分析系統而言,其分析的結果能否抵得上投資收益是一件不太確定的事,并且有效數據的產生可能需要一個長期的過程。對大數據的挖掘有點像在一座據說藏有黃金的礦山中挖掘,但要挖多深、挖多久才能有結果,其實并不確定。
4、加重核心系統的負擔最重要和最有價值的數據必然是從核心系統產生出來的,大數據分析的過程就是一個先大量占有、再慢慢分析的過程,在這個過程中,必然不能缺少核心數據的參與。這意味著核心系統需要開放更多的接口,犧牲一定的性能來配合分析。不僅如此,在爭搶系統資源方面,大數據系統當然比資源池內的其他系統更有“威力”。即使是主機環境互相隔離開,但只要是在一個機房內,存儲、網絡帶寬、機架空間、用電負荷等資源也會被迅速增長的大數據系統搶得一干二凈。長此以往,核心系統的業務資源必然緊張,系統運行風險也隨之上升。
建言獻策大數據是信息化系統發展到一定階段以后的必然產物,更大更全面的數據處理能力必將成為企業未來重要的生產力來源。然而,對于大數據,我們不能只抱著一片癡心,還要像認識硬幣的正反兩面一樣,對大數據的負面問題有所防范。
首先,不迷信不盲從大數據。大數據不是***的,更不是***的,數據僅僅是一種參考資料,如何看待和使用數據還要靠人。因此要用審慎的心態看待數據,避免因使用片面的數據而產生決策偏差,甚至是步入陷阱。如果我們不能合理使用大數據,那么大數據就真的成了“大忽悠”。
其次,要根據企業實際選擇合適的大數據方案。在大數據系統立項和建設之初,就要充分考慮投入和產出的比率,對于產出價值不大的系統應采取審慎的態度建設,并且嚴格控制規模,避免“大而全”的建設思路。只有在建設前期就嚴格把關,才能防止大數據成為“大負擔”。
***,做好數據信息安全防范。在使用大數據的同時,也一定要做好數據信息可能泄露的安全防范。數據如果沉淀下去一直不用當然不會創造價值,但如果不注意數據信息的安全防范就可能造成信息泄露、篡改、盜用、刪除等嚴重后果。極端情況下,甚至會給企業造成致命的打擊。因此一定要限定數據使用的范圍、流程,避免大數據演變成為“大災難”。