大數據的那些事(1):Google的后悔藥
大數據這個概念紅紅火火的也有兩三個年頭了,我在這個坑里的時間可能要更長一些,勉強可以從08年開始算。所謂年頭待得久了,看得也多一些。對應中國傳統文化的說法,什么東西老了都能成精。這個坑的主要目的還是以八卦為主,順便把我知道的道聽途說的有的沒的的大數據相關的東西給大家講一講,順便也把大數據來龍去脈理一理,權當諸位茶余飯后的談資。倘若寫到精彩之處,還請多多打賞。錢多錢少其實不是問題,收起打賞就頗有成就感。感覺人生又完整了一些。
大概說起大數據,我們就不可避免的要談起這個曾經在國內風光***,然后又從國內退出去的公司,號稱Do not Evil而實際上相當Evil的公司——Google。當然,因為我本人的經歷的關系,我在自己公眾號前面的文章里也提到過,我是黑軟粉,不是和主流大眾的審美觀一致。
不可否認,大數據伊始,主要是因為Google這個公司。更加確切的說,不僅僅是因為Google的一系列的論文,更是因為Google以自己的一年又一年的財報告訴大家,免費的消費者們,結合大數據的技術,做成廣告平臺,就像開了印鈔機一樣。錢之所在,趨之若鶩,人性本來就是如此。
我們把時光倒流到2009年,經濟危機的時候。那一年全世界發生了很多事。除了大家開始狂印鈔票以外,大數據作為一個概念也開始悄然登場了。這個時候我曾經聽到一個特別著名的笑話。笑話大致上是說,有人采訪了Larry Page,問他有沒有什么后悔的事情,Larry Page說,他很后悔讓MapReduce和Google File System這樣的paper給發了出來。
這個采訪估計是子虛烏有的東西,然而其反應的本質問題,Google后悔了,卻是非常真實而有據可循的。在我看來,Google不僅僅是后悔了,而且是在不停的后悔又后悔之中。所以當一個新的名詞人工智能,以及伴隨著的AR/VR出現的時候,Google采取了一種截然不同的做法。今天我們從Google的后悔藥說起。
Google的后悔藥的***層意思其實非常的名曲,倘若Google早年沒有發表了Google File System, MapReduce,以及BigTable這三篇文章,那么Google依然擁有著這世界上最為先進而獨特的大規模數據存儲和計算的能力。而業界的其他公司如果要想平地起高樓的起起來,那可能會需要更多的時間。Map
這其實從Google發表的一系列文章里也能看出來。Google File System是論文里面的經典,必須說每個做數據處理的人都值得一讀。MapReduce則寫得沒那么實誠了。等BigTable出來的時候,那就更需要讀者更多的想象空間了。至于此后若干年才誕生的Spanner,這個系統也許可以稱為是一個偉大的系統,這篇論文,寫得遮遮掩掩的那種樣子,能被OSDI接收也是奇跡,更何況是Best Paper Award呢。
就事論事,Google從一個非常開放的方式到越來越保守,和它后悔自己泄露了自己的商業機密,而以后又不得不繼續以泄露商業機密的方式來半遮半掩的顯示它在大數據領域的存在,無疑說明Google其實很后悔一開始發了那幾篇論文,可惜這世界上并沒有后悔藥。
然而我覺得Google其實是一個商業上極其失敗的公司。倘若我做CEO的話,估計高marketing的應該從上到下都清幾遍。為什么這么說呢。Google這個公司有著天生的優越感:老子就是有Google File System,老子還有MapReduce,你們這些老朽的,還有新生的公司們,沒有我這樣牛逼的體系結構,你們搞什么飛機都沒辦法趕得上我。所以呢,Google這個作為奠定了整個BigData最開始的框架和基礎的公司,從來都沒有想過開源自己的系統,以便可以占領市場。
于是活雷鋒Yahoo上場,硅谷大大小小的公司都湊上去,亂拳打死老師傅。
Hadoop這樣的一個看起來很爛的系統就這樣在大家七拼八湊的節奏下搭出來了。然后就茁壯成長起來了。這是一件非常有意思的事情。作為大數據技術的奠基人,在大數據領域的影響力,基本上是等于零。那么大一塊餅,你Google只要自己open一點,本來很大的市場,現在是做了雷鋒卻沒撈到任何的好處,我想Larry Page回頭想起來,估計后悔藥吃的不止是一瓶。
除去商業上極其的傲慢以外,Google還是一個以自我為中心的公司。Jobs的偉大在于他說過用戶是愚蠢的我們要告訴用戶怎么用才是正確的,這話的前提是Jobs的確是非常的比用戶更知道他們需要的是什么。盡管蘋果有諸多弊端,對用戶的真實需要的理解是很深刻的。
Google不同,每次都是不切實際的指望用戶去按照他們的方式去用他們的產品。早年的Google玩的那個只需要瀏覽器就可以讓消費者訪問全世界以及完成日常所有應用的Chrome應該是一個很好的例子。然而在大數據這個背景下,和云計算相關的地方,Google做了一件事:Google App Engine。非要定義的話,這是個PAAS的東西。Google2008年正式開始做這個App Engine,進入云計算市場,并且提供了包括BigTable在內的API的支持。問題吧,Google大概忘記了它自己和它的用戶的不同。
它的系統的Scalability對大部分用戶來說,都沒意義,沒有什么用戶要用幾萬臺電腦去解決問題的。而它的API的局限,對很多用戶來說其實無法接受。最簡單的,Google當時并不支持join。并且Google告訴大家我自己這么大的公司就沒有用Join,你們也不需要用。
Google App Engine折騰幾年,并不成功。相反的微軟亞馬遜都開始做賣虛擬機的生意,而且越來越紅火,所以到了12年終于忍不住開始做Google Compute Engine,也就是終于承認自己以前的戰略錯誤,開始賣機器了。我相信4年時間可以做很多事情,我也相信4年時間足夠讓一個本來可以搶占一部分蛋糕的市場,變得無足輕重起來。所以說西雅圖才是云的中心,而彎曲,包括Google在內,終究是慢了。我想Larry Page肯定是非常的感嘆他接二連三的做出的錯誤決定。這些錯誤決定的唯一結果就是BigData這塊大蛋糕,基于Google的論文,但是卻沒讓Google吃到一口。
所以當人工智能這個新泡泡起來的時候,Google迅速采用了一個完全不同的策略,不僅僅用AlphaGo這個程序告訴大家,所謂圍棋,不管東亞人怎么吹是信仰是人生是哲理,其實無非就是個計算的問題。Google接下來很快的開放了Google內部的人工智能平臺TensorFlow。我想這個戰略上的轉變,反映了Google不想在人工智能這個新的熱點上再一次吃上BigData上面顆粒無收的后悔藥。
同系列之: