淘寶車品覺:數據,你準備好了沒有?
車品覺在加盟阿里集團前曾在匯豐銀行、電信盈科、微軟、eBay等多家MNC擔任總監職務,積累大量中小企業在互聯網發展的經驗,論壇上討論的主題為《數據,你準備好了沒有?》。
分享主題有十點,我們節選了部分的主要內容:
一切從問題開始
提到數據中表現明智,不是要增加更多東西,而是要去除過份復雜和裝飾性的東西。理解了問題 ,就能化解問題,問題本身就是答案。
車品覺列舉一個親身經歷:有不少做電商的從業者向其提出疑問,B2C企業里大數據使用幾年了,真的有效么?車會反問道,你知道你的老板在過去六個月里的困難是什么?分析師往往5-10分鐘都無法回答,這表明從業者自己都不了解應該把數據用在哪里,這樣如何能使用好數據?。“懂問問題的本身,便找到了答案。”
如果分析師能把問題拆分成三個問題:公司現面對的頭三個問題是什么?未來三個月要解決的是什么?過去一個月作對了什么?事情便好辦多了。車再次舉出了一個在面試中自己常問的問題:“今天早上九點,我是淘寶的CEO,你是我的分析師,請給我三個指標,讓我對上周的業績安心。”
面試者常常不假思索的回答:“流量”,“交易量”,碰到第三個問題,才需要思考。這表明面試者并不了解問題:問題的核心在于對象是淘寶,不是所有的電商,目標是CEO,而不是產品總監,第三問題表明這是一個周敏感的數據(參考答案會在后文解答)。
“數據的力度是無窮的,你可以在不同維度里一直拆分下去,分析師只需要知道哪些數據對自己有用即可。”而數據收集的難度在于,你的起步應該有多寬,如何預判哪些數據是可以為將來所用,這個問題困難了車半年的時間。
在實踐中提煉數據的敏捷性
在動態中試驗,找出數據的規律性規律性就是不僅我會用,只要你知道了,你也會用。數據必須不停的時候,若僅憑借記錄的數據,是難以還原當時的場景:有一個人在下雨天買了面包,如果不再當時去考慮,是無法推斷出影響此行為的決定性因素。背景數據無法還原當時情況。
航海日志是一個很好的例子,收集數據后定位——進而做出決策——發現差異——回饋從新定位收集數據的范圍。這個過程中需要不斷的反饋,最后做成一個表格,數據便是這么提煉出來。
讓數據——獲取、使用、分享、協同、連接、組合
由于現在的數據統計得極不規范,使用數據的人很難有效的獲取信息,讓用戶輕松感受到數據的價值,過去在做數據時,很少會有人考慮用戶體驗,這恰恰是最重要的。比如數據里面出現了SQL,便使得很多技術以外人士無法讀懂,美國現在已經有企業提倡去除SQL,便是為了減低交流成本。
上面說的是使用。如何獲取同樣也是十分重要的問題。Google Glass這款產品為何如此重要?因為它能收集的數據與傳統渠道的區隔是天翻地覆的:從一個人早上起來遇到的每一個場景、每一個回饋所得的數據都收集起來,一個人50%-60%的數據都能收集到。讓數據盡可能簡單的收集起來。
顛覆創新來自分裂或重組
一個人注冊網站的時候,可能性別會是男。但仔細調查可以發現,或許早上的性別是男,晚上是女。或者70%是男,30%是女。過去是0與1的關系,現在是0-1的關系,這是一個立體的數據,年齡也是同樣的情況。
車品覺在這里舉了一個鮮活的例子:“現購物人群趨勢里,出現了diaos高帥富化與高帥富diaos化,三四十歲的人群,去買顏色很鮮艷的手機;而工薪族會去以數個月的工資來買一個LV包,這些都是很常見的。”分析的時候需要具體進行分裂。
以假設數據都能獲取去思考問題
大數據是眾多事物的數據化,獲取數據的成本越來越低。阿里數據科學部的楊滔先生舉出了四個特點:
量變到質變:小樣本下,模型無法達到滿意精度,大眾就覺得模型不行,但當樣本達到一定量,模型精度會顯著提升,從而使模型具備以前不具備的功能。
片段到全局:大數據能從多個角度判斷一個對象,許多模型都是對象的片段信息,但將這些片段組合在一起時,就會在整體判斷有爆發提升。
應用到資源:小數據下,數據是為了具體場景的效果提升,但當大數據模型能夠辨識全局,數據得出的信息就會成為許多創新及應用的源泉。
大數據包括多個數據處理和挖掘的環節,每一個環節都是科學+藝術,建模能力需要非常強,才可能深度挖掘其價值。
數據開放是硬道理
清華大學科學學院經濟學教授、清華大學華商研究中心副主任劉鷹在談到“從數據、信息到知識的演變”,他的邏輯是:從數據中獲取信息,從信息中提煉知識(見圖)。
我的問題是如何完成這個從數據到知識的提煉過程?誰來來完成這個過程?我的理解是,任何個人是不能在大數據時代做成一件事的。如果說在農業時代是“三個和尚沒水喝”的話,在大數據時代則是“只有三個和尚在一起才有水喝”。
同時,這三個和尚還不能是同一個師傅教出來的,第一個和尚要會statistics and machine learning;第二個和尚要有專業知識,例如經濟學、社會學和心理學等;第三個和尚要懂計算機的硬件和軟件。
三角鼎力方可百戰百勝!阿里研究中心將各部門打散,不同部門的人組成若干項目小組,大量動用各方專家進行合作研究,可見他們Boss的洞察力和領導力了!
利用數據拿到更多數據
電子科技大學計算機學院教授尚明生指出:數據“大小”自然是不重要的,或者說“數據”本身就不重要,重要的是數據中隱含的“信息”。比較麻煩或者復雜的是,這個“信息”的效用沒有一般的準則,因為它通常是為了解決不同的具體問題而言的,而問題又可能是多種多樣的,甚至無法預知。
我們無法直接抓住所有可能的信息,只好去抓信息的來源,也就是數據。從這個角度出發,這個數據就需要越大越好,這實際上是我們事先不確定其中可能有用的信息,又不想失去某個部分,再加上想偷懶,就想用同一份數據,來滿足不同(的人對于他們自己感興趣)的問題需求。
在實際應用中,如果問題比較固定,從抽樣理論出發,數據規模是可以限定大小的;如果問題本身發展變化,數據還會越來越大。
數據化營運是一種對待數據的態度
大數據的核心是以數據作為決策的依據,而不是拍腦袋。大數據時候需要改變的是管理的模式,而數據量的增加僅僅是使得這種改變更加緊迫、更有基礎。這件事在10年前我開始給學生講商務智能課的時候就是這樣,再回去20年這種思路就有。
從這個角度來說,數據的大小確實不重要,重要的是管理的模式和文化。今天之所以提出大數據管理,對于許多企業講其實是補10年(甚至更多年前)前管理理念上的課。
但是,電商在這方面占據了先機,現有的人員、技術和管理理念基本上可以支持大數據管理,這是一些線下企業,或者數據基礎、管理基礎比較差的企業望塵莫及的。數據量的積累對于這個企業而言還是重要的。