給Hadoop一個支點:撬動大數據
大數據大概是繼云計算之后,最熱門的科技名詞了。一些科技廠商不約而同,紛紛打出大數據口號,情況就像云計算熱潮一樣。那么大數據到底是怎么回事?
大數據照字面翻譯,就是"大數據",而這個"大",最起碼包含3種意思:大量的數據存儲、很大的數據、很大的數據庫。所以就中文譯名來看,不論是翻成"大數據"或"海量數據",其實都只能道出大數據的部分特性。然而,不管是大數據或是海量數據,都指向一個共同的趨勢,就是數據增長的速度越來越快,而之所以能構成大數據這個新議題,就在于數據量之大已不同之前,目前的技術已經難以處理。
以前只有少數的產業會面臨海量數據處理、分析的需求,例如氣象、基因、科學仿真,或是金融交易詐欺分析等等,但隨著科技應用的改變,有更多的產業也面臨海量數據分析的挑戰。例如搜索引擎廠商要索引全球的網頁,就是一個艱巨的任務;電子商務企業要掌握顧客消費行為,所要分析的數據也越來越多。
以eBay的使用經驗為例,看到國外媒體的看到稿件上寫著eBay的數據庫每天增加50TB,一度懷疑是不是粗心把5TB多加了個零,結果真的是50TB.因為eBay每天最少都有數百萬次的商品查詢,數據庫每日增加1.5兆筆記錄,而數據庫的總容量則已超過9PB.所以,不僅每天新增的數據量龐大,連數據庫也是超級龐大,而要從中分析顧客的瀏覽、消費行為,就是一件困難的事情。
大家熟悉的Facebook社交網站,每天都有數億用戶留下龐大的數據,甚至其中有很大的比例是圖片、影片等傳統數據庫系統較不擅長的非結構化數據。這不僅挑戰社交網站廠商如何管理,對于想利用社交網站來掌握消費者動態的企業而言,所面臨的挑戰也是***的。
美國***的超市Wal-Mart,既要分析顧客在網站上的購物行為,還要分析消費者是通過哪些關鍵詞的搜索跳轉而來,甚至,Wal-Mart想要進一步分析顧客在Facebook等社交網站的動態。Wal-Mart過去通過結賬數據分析,將啤酒與紙尿布擺在一起,促進了啤酒的銷售量,此舉令人津津樂道。然而,這已經是屬于事后分析,未來他們想要更主動了解顧客在社交網站反應的個人狀態,早一步掌握潛在的消費需求,有可能他們以后會比父親更快知道女兒懷孕了。
其實制造業也面臨相同的挑戰,例如隨著晶圓的規格越來越精細,要掌握更精細的制程分析數據以確保準確率,就必須分析比過去還要多很多的數據。那么如何有能力分析海量數據,以及在可接受的時間內完成數據分析,就是個關鍵了。為此,很多公司就早早布局大數據的關鍵技術──Hadoop.
未來會有更多的產業要面臨龐大數據量的挑戰,而目前走在前頭的企業,都不約而同的采用Hadoop這樣的技術來克服難題。
Hadoop是基于Google搜索引擎的分布式計算技術,Google的哲學是螞蟻雄兵精神,利用大量平價的服務器,搭配平行計算架構,以***經濟效益的方式創造龐大的計算量。當Hadoop以此技術發展出海量數據平臺,對企業而言無疑是一道克服海量數據挑戰的曙光,因為企業可以不再依賴價格高昂的大型專屬設備,而可以通過自建大量x86服務器群集來解決。
最近,Hadoop終于發表1.0正式版,就像是只要給我一個支點,就能撐起地球,Hadoop或許就是撐起大數據的那個支點。