美數據科學家汪曉宇:如何破除中美大數據“三年差距”
目前,大數據正掀起一場革命,“數據就是生產力”這個說法也正從“預言”變成現實。
無論是哪一個行業,都再也沒有辦法躲避這一浪潮。無論是分析傳統的結構化數據,還是分析其他千奇百怪、內涵豐富的數據,比如來自社交媒體網站、各種客服渠道的海量非結構化信息,對企業而言,都將成為提高競爭力、盈利能力以及最重要的創新能力的關鍵。
但是,對于企業的CIO、CTO們來說,真正把數據轉化為驅動企業發展的生產力,并非那么簡單。在這一方面,中國在大數據產業上的理念、痛點,與美國有著非常大的差距。
中美大數據“三年差距”差在哪里
“企業數據分析,中美在理念方面相差2-3年,而在實際執行層面或許有5年左右的差距。”美國數據分析科學家、Taste Analytics創始人及全美五大可視化研究中心的Derek Wang(汪曉宇)博士告訴記者。
3-5年的差距,在瞬息萬變的信息社會,是一道不小的鴻溝。那么這道鴻溝,到底是怎么造成的呢?
在汪曉宇博士看來,中美大數據產業的差別,主要有人員配置、技術開發和商業架構三個方面。
首先,人才培養上的差異,是“五年鴻溝”的根本原因。
現在美國企業最熱門的職位,非“數據科學家”莫屬。這類在企業里掌握著數據“魔力”的人才,其實是大數據分析實際執行層面的關鍵。
在汪曉宇博士看來,未來的人才是“T”字型人才,數據分析師就是典型代表。“T”的一橫代表著,他們對多領域和行業,比如金融、計算機、統計、商業和營銷等都有過接觸,有著跨行業的基礎知識和視野;而“豎”代表著,他們對某個領域的專業理解和縱深積累。
美國在數據分析方面的教育上,就在努力轉型,實踐這種“T”字型理念:科研項目不再是由計算機系、商學院或者統計專業的學生單獨進行,而是多個專業融合起來,形成整體戰略方向。這樣培養出來的人才,具備業務、營銷、統計和計算機的多維度技能和知識面,才能被成為“數據科學家”。
這種前沿的教育理念,即使在美國,也才出現不到三、四年。但它取得的效果是根本性的——正是在這樣的教育方式下,美國才培養出了***批數據科學家,引導了企業的數據革命。這也反映出了中美人才梯隊和培養機制的巨大區別。
而中國受到傳統教育體制的限制,更重視縱深的專業技能,也就是“T”的那一“豎”,缺少跨學科和專業的綜合性體制的建立。這樣培養出來的人才,不知道橫向的概念,只見樹木而不見森林,造成企業用人的時候,還需要花很多時間,對畢業生進行重新培訓,額外花費很多時間和金錢。但是,最為關鍵的還是,他們無法主動引導企業建立和完善數據分析機制,讓企業可以在短時間內就從“數據分析”中受益。
汪曉宇博士說,與此相反,“T”字型的畢業生,不是重新需要訓練的學徒,而是已經基本掌握了既定的分析方法的“熟練工”,他們可以幫助企業建立新的分析模型,甚至有自己成系列的解決方案帶給企業,可以激發相互的生產力和數據分析能動性,這比單單的商業分析員或者IT員工,價值都要大得多。
其次,技術工具上的差異,讓這道鴻溝難以短時間內跨越。
人才沒有到位最直接的后果就是,企業在進行數據分析時,仍然只能選擇大而全、千篇一律的整體解決方案,無法創新地結合多種工具,對某個類型的數據進行深入地挖掘和分析,這樣就無法發掘出數據真正的價值。
汪曉宇博士說,美國企業已經普遍開始追求垂直創新的小工具,進行非常縱深的研究,比如Taste Analytics的非結構化數據分析工具,就已經吸引了多個財富500強客戶,幫他們專注非結構化數據的分析;但是現在中國市場上,流行的產品解決形態仍然是諸如SAP、SAS這類的的整體解決方案,雖然可以覆蓋到數據分析的基本方面,但是卻失去了對數據的深入挖掘能力。
“事實上,非結構化數據的模塊化更加靈敏,不是傳統的單一解決方案可以做到的。” 汪曉宇博士說,“在美國,企業傾向于使用的BI(Business Intelligence,商業智能)工具,都是橫向加縱向的組合,這樣才能提取出數據的真正價值。”
第三,商業架構被這道鴻溝影響,也在反向加深著鴻溝。
人才、技術和商業,都存在著鏈條式的關系。人才的差別讓創新工具無法得到廣泛的使用,而技術形態的差異導致中美在大數據商業架構上也呈現出不同特點。
汪曉宇博士說,中美對大數據分析的清晰度是不一樣。美國企業高層既可以在大方向上知道大數據可以做什么,又明白應該怎么把數據分析應用到策略里,和經濟效益直接掛鉤。
比如,和美國CIO、CTO們說起產品時,他們可以迅速做出反應,考慮的是應該怎么把產品放到他們的解決方案中間去,和現有業務進行快速整合。“我們和美國的企業聊,他們很快就意識到自己的非結構數據化分析沒做好,下一步,他們就主動談起應該怎么把Taste Analytics的非結構數據化分析應用到他們的戰略中去。”
但是,國內的理解是仍然是偏整體化的。雖然大數據已經得到了普遍認可,但是企業只接受概念和這個趨勢,仍然無從深入,沒有清晰認識到它應該怎么和業務、經濟效益掛鉤。“最主要還是沒有發揮企業內部分析師等人的能動性,” 汪曉宇博士說,“數據科學家還不存在,或者說整個體系還不成熟。”
中美CIO、CTO痛點存在差異
但是,這五年差距并不是一開始就存在的。在汪曉宇博士看來,美國企業已經交過學費、走過彎路了,才走到現在這一步。“其實最開始,大家都不知道應該怎么做。但是美國企業愿意交學費、雇傭***數據科學家、使用新工具,對數據的理解已經脫離了概念層面,真正從大數據的利用上獲得了效益。”汪曉宇博士說。
而國內還處在嘗試和吃螃蟹的階段,對數據的理解很表面化。“人人都說好,但是看不到真正的價值。”汪曉宇博士說,“要想打破這個困局,就需要決策層的決心,真正去咬下***口螃蟹。”
但是從另外一個方面來說,中美數據分析也不能雷同。因為數據是人產生的,中國消費者和美國差異非常大,數據的反饋途徑也不一樣,所以,也不能盲目照搬美國。
在和國內的20多家企業聊的時候,汪曉宇博士也發現,國內的瓶頸是數據采集點很有限。比如分析客戶的郵件和網絡聊天記錄時,他發現,人們更喜歡直接打電話和客服溝通,這種商品環境就需要獨特的解決方案。所以Taste Analytics在國內加大了語音分析服務的比重。
另外,數據采集之后的數據交易環節,中美也是不一樣的。在美國,A銀行可以公開買到B銀行的數據,但是國內企業通常只能看到自己的內部數據,而無法看到競爭對手以及整體行業趨勢;甚至在社交網絡上,數據的差異也很明顯,比如社交網絡上的第三方數據,美國真實性就比中國要更高。
數據分析和交易的不同,導致了中美CIO、CTO痛點的差異。
對此,Taste Analytics的***數據分析師俞立博士就有非常深的體驗。 他表示,在他和國內公司交流的過程中發現,國內缺乏數據的人才和工具,同時,數據分析也無法和企業經濟效益掛鉤。
“大數據光環很好,但是如何用不知道,給誰用也不知道,那么離他們真正使用產生經濟效益,還有2-3 步的過程。”俞立博士說。 比如他們接觸到一個大型運營商就曾經希望基于大數據給他們的客戶推薦業務,但是交流之后發現,他們對非結構化數據分析的理解還停留在簡單的輿情分析上。也就是說,他們想做的系統,其實還是美國5、6年以前就存在的推薦系統。
痛點難點這么多,怎么破?
對于中國企業如何應對數據分析領域的痛點,汪曉宇博士看得非常清楚。作為前北卡大學夏洛特分校的助理敎授、夏洛特視覺中心主任以及Taste Analytics的CEO,他對中美的大數據分析產業都有著很深的理解。
在汪曉宇博士看來,最根本的解決方法在于改變人才培養的機制,讓企業把眼光放長遠,和高校合作。 “CIO和CTO應該多和高校合作,深入到員工池里培養人才。”汪曉宇博士說。這一點已經成為美國企業和高校的共識。在美國,企業們會對高校進行資助,并且根據企業的需求和實踐,來影響學校的課程,把課程傾向于實踐的方向,這樣可以讓高校更有針對性地培養人才。
而對于企業來說,另外很重要的一點就是,不要害怕交學費,應當大膽嘗試新工具。汪曉宇博士認為,企業不要怕花學費,應該嘗試新的解決方案,嘗試新的BI工具,因為只有嘗試了,才知道那個工具會產生怎樣的價值;如果總是尋求舊的解決方案,那么企業將無法真正挖掘出數據的價值。
第三,保持開放的心態,公開非機密數據,實現行業共贏。 從學術角度看,大數據分析的技術基礎無非統計學、深度和機器學習這三個既成的方向,但是要真正應用到企業,一方面,企業應該多看其他行業怎么做,舉一反三,實現跨行業的理解;另一方面可以適當地公開非機密數據,鼓勵所有人一起挖掘企業數據的價值。
比如美國知名流媒體服務商Netflix,就曾經在一個網絡數據分析機器學習的社區上拿出100萬美元的高額獎金,鼓勵人們用任何工具,分析他們的數據。 “把核心數據拿出來,讓大家幫助分析,在傳統產業數據分析的解決方案基礎上,嘗試新的方案。這樣整個行業才可以得到整體發展。”汪曉宇博士說。