云計算趨勢:海量數據將發揮核心作用
隨著云計算的發展,世間每個人每件東西每天每秒所產生的新數據(位置、狀態,所見、所聞、所思、所言……)都有能夠被更完整和豐富地數字化,并全部聯入互聯網。 我曾經說過, 云計算是目前***的技術趨勢,也是以互聯網為基礎的新一代技術的總稱。寬泛地看,其中除了基礎設施層面的新型硬件與數據中心、分布式計算、海量數據存儲與處理等等技術之外,還包括人與人之間更多的交流方式(社會化網絡),終端設備的多樣化(移動),無所不在的數據采集方式(物聯網),和新一代自然用戶界面、用戶體驗。
其中,海量數據將發揮核心作用。
互聯網企業與傳統行業(包括軟硬件和電信廠商)相比***的優勢,就是幾乎消除了任何中間層,所有最終用戶使用產品的行為數據可以輕易地保存在服務器上;通過對這些海量數據的挖掘、分析和圖形化呈現,能非常清晰地揭示用戶的行為模式,加深對用戶需求的理解,提取用戶的集體智慧,從而為產品研發人員決策提供依據,同時不斷提高系統的智能化水平,提升產品用戶體驗。而社會化網絡更進一步,用戶都以登錄甚至實名為主,可以為每個人提供個性化的服務。
早在2005 年,Web 2.0 的主要倡導者Tim O’Reilly在經典文章“什么是Web 2.0”中就強調過“數據是新的Intel Inside”,也就是說,就像PC時代Intel 芯片是核心一樣,數據是新一代計算的核心。(細讀此文,我們會發現云計算與Web 2.0之間的緊密關系。)
2007 年Google 承認,在很多情況下海量的數據比好的搜索算法還要重要。而它的競爭對手近來也在抱怨彼此的差距主要在用戶搜索數據的積累上。Google 的很多產品,比如翻譯和語音輸入,同樣得益于海量語料庫的支持。2009 年Google 的研究總監Peter Norvig 等人發表了《The Unreasonable Effectiveness of Data》一文,得出一個結論:簡單的模型加上海量的數據比精巧的模型加上較少的數據更有效。也許正是因為如此,Google ***經濟學家Hal Varian 才會堅稱數據科學家將是未來十年***吸引力的職位,他認為管理者甚至中小學生,都應該具備對數據進行處理、從中提取洞察、理解和表達的能力。
Facebook更是眾所周知的數據驅動無所不在的公司。2006年,為了找出Facebook在某些學校不受歡迎的原因,公司從華爾街聘請了數據科學家Jeff Hammerbacher(現為Cloudera 的***科學家),他和其他幾位同事組成了最早的數據團隊,在不知不覺中自行研發了一個商業智能系統。這成為Facebook 日后產品成功的重要基礎,不僅很好地支撐著工程團隊,而且在產品設計決策中也起到了關鍵作用——他們的設計師也能寫代碼,用真實內容和頁面來做產品原型,然后上線測試,快速迭代,2009年時設計團隊每周提交40次。
可以想象,隨著云計算的發展,世間每個人每件東西每天每秒所產生的新數據(位置、狀態,所見、所聞、所思、所言……)都有能夠被更完整和豐富地數字化,并全部聯入互聯網。近年來互聯網領域的創新幾乎都可以納入這一模式:Google 將每次搜索和去向存儲下來,Facebook將人們之間的各種交互數字化,Amazon、淘寶等電子商務網站將商品流通的信息、人們的購買喜好數字化,Twitter 等微博將人們稍縱即逝的想法和談話記錄下來,Foursquare 等LBS應用將人們去過那里的信息記錄下來,Instagram、Color 等移動應用捕捉瞬間的圖片和音頻、視頻……
這其中蘊含的巨大潛力將是***的,影響極為深遠。互聯網企業甚至更多行業企業之間的競爭將圍繞誰擁有更多詳細的用戶數據并能善加運用展開。我們很有可能打造一個智能系統,實現計算機科學長久以來的人工智能夢想。