演講干貨丨大數據的“上半場”與“下半場”
導語:科技放大了我們的能力,但是也同時增加了我們的煩惱。我們要用數據做更精準東西的時候,會發現數據的質量非常重要。
從PC互聯網到移動互聯網,再到智能互聯網,技術背后更多體現的是解決問題的思維方式的變革。
當大數據被廣泛應用并逐漸走到下半場的時候,對于公司或產品,我們面臨怎樣的機會和問題,我們又當如何科學的對待?
紅杉資本中國基金專家合伙人、原阿里數據委員會會長車品覺,在上月舉辦的第十一屆艾瑞上海峰會上發表題為《大數據,顛覆存在與思維》的演講,他說人類的經驗和數據的驅動應該更好的相處。
- 不用擔心當數據驅動這個世界
- 會把人類的經驗消滅掉,
- 人類的經驗和數據的驅動
- 兩者之間是相互的。
大數據,顛覆存在與思維
我們總說,我們經歷了從PC互聯網時代到了移動互聯網時代,還會經歷智能互聯網時代,但很多人不理解什么是“智能”。
那么現在到底發生了什么事情呢?以前我們很難說服公司的每個部門去主動搜集數據,甚至當我們開始做大數據的時候,我們公司里面還討論“我應該收集什么”。
而現在,我們希望能夠更準確地分析信息,更準確地做判斷,通過深度學習,我們希望快速從錯誤的信息里找出對的東西。這些都是現在正在發生的。
當數據量特別大的時候,萬物的連接,主動的數據收集,這是上半場;而下半場是怎么準確進行判斷,把數據變成行動。
說的更通俗一點,從前人類想我到底能不能活得更久一點;而現在,除了這一點之外,人類在想我能不能把平均IQ提升到160,這就是上半場與下半場的區別。
需要治理的數據
最近不斷有大集團打電話給我說:車總,跟我們講講數據治理吧,我們想知道你從頭到尾是怎樣思考的。這些老板提到了一個概念:數據治理。
公司數據遇到的大部分困難是公司內部的打架,因此大量數據沒有辦法整合在一起,可能四五年內都沒有辦法。100PB、200PB、300PB的數據,再不治理就真的吃不消了。因此數據治理是非常關鍵的點。
除了數量,數據的質量也非常重要。比如阿里金融和其他數據部門總是為了一件事爭論不休,就是因為阿里金融需要的數據質量是非常高的,但是其他部門給出的數據經常沒有考慮這些,這都是數據治理的問題。
其實當數據量增加的時候,你就會發現它的精準度在提升,當然數據量的增加是指來源的增加。但有些問題必須要很精準,90%準確度和95%準確度本身就是非常大的分水嶺。
還有一些事情也是下半場開始出現的。比如我們身體反應出的一些數據,我們今天的表情到底是開心還是不開心?即“情感的數據”。由此可想象數據的復雜性,到了下半場你會發現你根本沒有辦法去找到這一類的數據。
我們除了說數據量一定要大,其實還有一點也很重要:核心數據。這意味著,當你拿到這些核心數據的時候,數據量可能并不需要那么大了。
大數據不止于“大”
你遇到的問題到底能不能用大數據來解決?
根據我們過去的經驗,我們今天準備用數據解決的問題如果沒有足夠的發生次數,如果只是偶然或者低概率,大數據就沒有辦法處理。但如果它的發生次數足夠多,我很快就能知道我推薦的東西到底是對還是錯的。
如果想通過數據看到很準確的信息,這需要依據數據的量以及我們對這個業務的理解有多深。
有時候會有投資人拿著一家比較小的公司的數據給我說,這個公司有很大量的數據,大概MAU在1億多,但我說這不是大數據,為什么?
***,這些數據里面有多少是可以和我匹配的?不妨想一下,如果你有100萬的用戶數據,那么有百分之多少的數據能覆蓋?如果1億多的量,一般超不過50%。這是***個問題;第二,如果我給你100萬的數據你知道他是男的還是女的嗎?準確度在90%以上嗎?
如果不能回答這兩個問題,那就不是大數據了。量和量之間的連接是非常重要的,在這個前提下你才可以做融合。比如一個人今天到你店里去買東西,那么你知不知道他之前去過什么店、看過什么東西?匹配、相關、全面,第四點最重要,新鮮。到底你的數據能做到有多新鮮,這是非常重要的。
挑戰與機會
我們要解決的問題通常是兩種:***,我們非常清楚問題是什么;第二,我們不是很清楚問題是什么。換句話說,一個問題是數據很集中;另一個問題是數據很零散。
我們現在可以做的大數據方案都是數據很集中,而且問題很清楚,否則沒有辦法解決。如果數據很零散,你可能要用大量的算法,但如果數據很清楚,問題很清晰,算法不重要。
但是大數據的機會反而是來自今天的離散的數據。
- ***個機會:我認為將來有很多數據的創新是來自這里:數據創新、算法創新、服務創新,把三層分開;
- 第二個機會:很多數據太零散了,所以需要有一個第三方進來整合這些數據;
- 第三個機會:今天***的問題是政府數據的開放,不是不存在,但是質量相對較差,沒有標準化,比較零散。
我認為這是BAT以外***的數據量,而且可能是非常重要的一塊。怎么樣可以把這些數據的產能釋放出來,這是一個挑戰和機會。
數據的標準化
當年發現阿里數據很大的時候,我們發現大量的數據是重復的,特別是ODS層的數據,越底層的數據處理應該是越統一的。
如果不做標準化,隨著公司對數據的重視,就會“百花齊放”:結果就是亂,可能需要重做。
你們做的是Data Stitching,把它連起來,讓它能使用,讓中間人用Machine來使用。一種是可視化分析,另外一種是用服務的產品,還有智能的東西出現。這樣的東西面對的是什么呢?最終的用戶是政府、公司和個人。
在世界互聯網大會上聯想提到以前是終端,現在中間那塊做得比較厚,Data、算法、服務。盡管數據驅動非常厲害,但是依然會有經驗的驅動,人還是要告訴機器“你要去哪里”。
不用擔心數據驅動這個世界將會把我們人類的經驗消滅掉,人類的經驗和數據的驅動兩者之間是互相的。