制約大數據發展的核心因素是什么?
本文嘗試從大數據產業鏈的各環節入手,談談當前制約其發展主要因素。
眾所周知,大數據按照處理流程可以分為三步:
- 大數據采集和清洗
- 大數據存儲和分析
- 大數據展現和應用
從以上這三個方面,我想談談制約大數據發展的幾個核心問題。
一、大數據采集和清洗
1.1、數據法規:用戶隱私如何保護、商業規則如何制定、法律規范如何制定等等一系列法律法規都大大滯后于大數據科學的發展速度。由于技術EXE所限,紙上談兵TXT成為常態。當前數據法律法規未明,采集方式八仙過海,預計未來很多大數據業務都將會繼續游走在灰色地帶,只有當商業運作初具規模并開始對消費者和企業產生影響之后,相關的法律法規才會被迫加速制定出來。(法律大數據研究與應用)
1.2、數據質量:由于大數據產業剛剛起步不久,目前在具體的某一領域或行業內,尚未有成型的數據采集、加工、分析和應用鏈條,大量數據源未被激活,包括政府在內的很多權威數據機構,普遍存在數據缺失、噪音多各方面的問題。舉個栗子,如果一個電商網站銷售額的20%是與推薦系統相關的時候(亞馬遜是35%Was Amazon’s recommendation engine crucial to the company’s success?),投入和產出是不成比例的,這也是很多小微企業難以為繼的原因,技術上每1%的進步都需要100%的汗水和努力,1%的誤差都會極大地影響企業的市場份額。
1.3、數據人才:去年我參加了「2016年中國大數據產業峰會」,當時清華大學的一名教授預言:
未來 3 年,中國需要 大約 180萬大數據人才,但目前只有約 30萬人。
作為國內TOP2的知名學府Tsinghua當然不會落后,2014年就開始了動作( 清華大學培養跨學科交叉融合數據科學研究生),雖有些跟風的嫌疑,但至少是順應發展。由于數據人才稀缺,大多數數據企業沒有數據價值外化、將數據變現的有效路徑,只能躺在金礦上睡覺。而在實際項目實施過程中,數據專家們不得不花費大量時間在數據清洗上,對原本就稀缺的數據人才其實是一種資源浪費。另一方面,數據專家們不但需要解讀大數據,同時還需深諳某行業發展各個要素之間的關聯,甚至包括策劃、管理、執行等許多具體要素,這里就不贅述了。
二、大數據存儲和分析
2.1、數據隱私:理論上,用戶和企業的原始數據沉淀在數據平臺上(如BAT),數據平臺在未獲授權的情況下不能提供給第三方,但實際情況是用戶對原始數據的占有獲取權及公開權基本取決于用戶與平臺達成的協議「用戶須知」,加上互聯網本身的開放性和某些企業故意作惡,用戶基本無法捍衛自己的數據財產所有權。
2.2、數據安全:棱鏡計劃(PRISM)曝光,我們知道美國政府已可以從電郵、短信、視頻、照片、存儲數據、甚至語音聊天等全方位對人進行監控,大數據挖掘讓互聯網世界已無死角可言。這同時證明黑客攻擊方的能力和范圍已無限升級。中國最頂尖白帽團隊Keen的創始人王琦說:
大數據時代,數據就是錢。
數據黑客可以從互聯網中盜取各種數據,互聯網地下社工庫(互聯網社工庫的傳說,這個是真的存在嗎?)就是最好的證明。
三、大數據展現和應用
3.1、數據展現:眾所周知,數據的價值無法估量,但只有在被展現時才能發揮出來。高維數據可視化目前仍是一個棘手的問題,比如如何判斷當前降維算法是否是合適?如何選擇合適的數據展現方法?仍然拿推薦系統來舉栗子,推薦的準確率、覆蓋率、多樣性、驚喜度等應該如何取舍才能提高用戶滿意度?這些都需要數據分析師對業務和技術都有相當程度的了解,因為數據科學本身是一個交叉學科,涉及統計學、計算機科學、商業領域經驗等多種知識。
3.2、數據產業鏈:如果沒有對某個行業整體產業鏈的宏觀把握,單個企業僅僅基于自己掌握的獨立數據,就無法建立產業鏈各個環節數據之間的關系,也就無法對業務發展和應用做出精準的判斷(通俗說就是難以將數據變現)。數據分析師如何將大數據層面上的關聯具象到行業實踐中?如何如何制定可執行方案應用數據挖掘的結論?當前的現時情況需要處于大數據生態圈中的企業需要進行合作,方能實現共贏。
3.3、數據獨占性:合則兩利,斗則俱傷。正因如此,國家為了促進大數據產業的發展以及小微企業創業,提出建立數據交易所的概念。然而另一方面,除了少數大企業如BAT自成體系外,這些需要共享信息的小微企業之間往往存在競爭關系,數據作為一種排他性的資源,越是稀缺的數據才越具有價值。所以共享數據時需要權衡利弊,這也在一定程度上限制了大數據企業的合作。
四、總結
大數據不是萬能的,但沒有數據是萬萬不能的。
當前大多數企業的信息化程度不高,管理層尚未形成相應的數據思維。換言之,大數據產業還有很長的路要走,在摸著石頭過河的時候,探索出獨特的數據之道也許更為重要。
PS.其他技術層面問題,如大數據相關的軟硬件成熟度、成本,大數據應用的普及率、計算實時性等,鄙人以為在不遠的將會都會一一攻克,至少目前不會成為制約大數據發展核心的問題,所以在這里就不作討論了,其他有時間再補充。