大數據還是“大忽悠”? 解決問題、貼近業務才能“接地氣”
今年1月,工業和信息化部印發了《大數據產業發展規劃(2016-2020 年)》,提出全面部署“十三五”時期大數據產業發展工作,加快建設數據強國,為實現制造強國和網絡強國提供強大的產業支撐。預計,中國大數據產業市場在未來五年將保持高速增長,到2020 年中國大數據產業規模將接近5萬億元。
大數據已在各行各業得到了普遍重視,有CIO更表示,如果跟同行交流,不講大數據都不好意思跟人家打招呼,然而在業務中卻發現,上了大數據的“數據駕駛艙”,除了老板看到了更酷炫的報表外,對業務并沒有太大的幫助。這種感受無獨有偶,在剛剛(12月7日)舉辦的2017中國大數據技術大會上,中科院院士徐宗本就表示,“實施大數據是一件很不簡單的事,如果有哪個企業號稱有一種軟件包供你使用就能分析大數據、就可以解決問題,這一定是忽悠你、騙人的。”
如何避免大數據系統只是一個酷炫的看板,澳洲昆士蘭大學教授周曉方表示:“首先要定位問題,企業需要解決什么問題,然后再去找數據幫我們去解決這個問題。其次,有了數據以后我們要解放思想,創造新的應用與價值。這個需要企業界和科研界合作解決這個問題。大數據是我們這個時代的特征,這個事情已經在那,數據本身也在那里,數據應用的技術也在那里,要通過各種應用場景現才能真正落地。因此CIO們不能為了大數據而大數據,而是要鎖定你要做的事情、你有數據,還需要什么數據,用這些數據把現有的工作做得更好,用這些數據推動新的應用。”
微軟亞洲研究院副院長、***研究員劉鐵巖(左一);
華東師范大學數據科學與工程學院教授、博士生導師錢衛寧(中);
滴滴出行高級副總裁章文嵩(右一);
滴滴出行高級副總裁章文嵩在運用大數據解決出行問題上深有體會:“首先要定位問題是什么,如何定義這些問題,把問題梳理清楚后基于這些問題看在數據上能不能得到一些啟示。滴滴是一個出行平臺,現在解決的問題是讓有需求的人迅速找到最近的車,因此每秒鐘這個車的位置數據都會記錄在我們的平臺上,這些連續的數據就是行車的軌跡,這個軌跡很好地呈現了在全國400多座城市的交通的狀況。我們發現這些數據在智慧交通的治理方面將是非常有價值的數據,因此我們要擁有一些數據后才能發現數據的價值。”
“數據只是我們擁有的一部分,我們拿到的數據是一個基礎,一定要從過程中找到價值。過程是我們做機器學習的這個過程。”微軟亞洲研究院副院長、***研究員劉鐵巖認為應該從人工智能這個維度運用好大數據。他表示,“大數據一定要把數據和智能結合起來,要有全盤的規劃。在這個角度來講。要什么數據是為了實現種業務目標找合適的數據,而不是要拿到所有的數據留下來就好、數據大也有很多好的方面,很豐富,但也有壞的方面,有些是噪聲,有些可能是錯誤,如果沒有一個有效的方法把噪聲去除掉,把有價值的信息挖掘出來,***也會把我們引導到一條錯誤的路上。”
對于數據質的量章文嵩非常重視:“數據質量非常關鍵,如果數據不準,得出的任何結論就會有問題,而解決的辦法涉及到數據的收集、生產、傳輸整個過程。我們對數據肯定是要層層校驗,哪些校驗有些環節數據不準了,或者有些環節數據丟了,就拿滴滴派單來說,用戶進來表達了他的目的地之后我們會有很多的動作,然后是我們平臺是否派單,派單在執行中到完單***到支付,這是個漏斗模型。其實層層環節都要校驗,發現哪些環節是網絡傳輸處理的BUG,哪些環節導致了數據丟失,層層校驗就跟財務做校驗一樣,每個環節都要校驗,確保數據準確性和軟件的正確性。
華東師范大學數據科學與工程學院教授、博士生導師錢衛寧則認為:“數據已像我們的電一樣,人類文明在有電之前與有電之后很不一樣,如果有了電我還在用蒸汽機會覺得電沒有多大作用。現在有了數據之后,我們的業務模型或決策模型都是要變化,如果有了數據后還只是用作展示報表,這個還是傳統的思維模式。有了數據之后如何根據數據重構商業模式,去重新設計整個業務流程,才可以把數據用的更好。”