Facebook打破Hadoop最大容量上限
你可能會(huì)認(rèn)為,100拍(petabyte)字節(jié)對(duì)于任何公司來(lái)說(shuō)都是非常大的數(shù)據(jù)量級(jí)了。但是對(duì)于社交網(wǎng)站明星Facebook而言,100拍字節(jié)的數(shù)據(jù)根本不算什么。
由于擁有10億用戶,以及需要每隔30分鐘分析一次105太(terabyte)以上的字節(jié),F(xiàn)acebook對(duì)數(shù)據(jù)處理的胃口已經(jīng)堪稱“哥斯拉”級(jí)別。為了優(yōu)化產(chǎn)品性能和廣告業(yè)績(jī),臉譜需要關(guān)注和分析這些數(shù)據(jù)中的許多內(nèi)容,其中包括與27億“喜歡”(Like)按鈕功能有關(guān)的數(shù)據(jù),以及每天25億被共享的內(nèi)容項(xiàng)目。Hadoop是Facebook網(wǎng)站使用的一個(gè)關(guān)鍵工具,其不僅被用于分析,而且還被作為推動(dòng)Facebook網(wǎng)站內(nèi)信息傳送等眾多功能的引擎。這一沉重的工作負(fù)載迫使Facebook推出了支持地理分布式Hadoop數(shù)據(jù)存儲(chǔ)的Prism項(xiàng)目。
得益于諸如在Hadoop上處理A/B測(cè)試結(jié)果等技術(shù),F(xiàn)acebook能夠確定針對(duì)具體地區(qū),或以性別、年齡、興趣愛(ài)好等標(biāo)準(zhǔn)劃分的特定群體推出的功能和廣告的效率。通過(guò)這些積極的結(jié)果,臉譜能夠改進(jìn)功能,明確目標(biāo)市場(chǎng)。
Facebook的業(yè)務(wù)分析師正在以各種方式拓展公司的業(yè)務(wù)。他們主要依靠的是可讓他們同時(shí)使用Hadoop和標(biāo)準(zhǔn)商業(yè)智能工具的Hive,以及由Facebook自主開(kāi)發(fā)的閉源終端用戶工具HiPal。Hive為一個(gè)由Facebook推出的開(kāi)源項(xiàng)目,其被廣泛地使用在企業(yè)內(nèi)部的訪問(wèn)層,以查詢使用SQL子集的Hadoop。為了讓業(yè)務(wù)人員更加容易地使用它們,臉譜推出了HiPal。HiPal為一款圖形工具,它能夠與Hive對(duì)話,并且具有數(shù)據(jù)發(fā)現(xiàn)、查詢編輯、制圖和儀表盤創(chuàng)建等功能。
在原生Hadoop容量方面,F(xiàn)acebook已經(jīng)達(dá)到了它們的***上限。Facebook近期宣布,該公司目前擁有全球***的Hadoop集群,數(shù)據(jù)容量達(dá)到了100拍字節(jié)。不過(guò),F(xiàn)acebook也表示這還不夠大。Prism項(xiàng)目將把Hadoop的容量推向一個(gè)新高度。
目前的問(wèn)題是,Hadoop必須將數(shù)據(jù)限制在一個(gè)物理數(shù)據(jù)中心。盡管Hadoop為批處理系統(tǒng),但是它們還是被緊密耦合在一起。同時(shí),在Hadoop集群的服務(wù)器中,它們無(wú)法接受超過(guò)數(shù)毫秒的延遲。通過(guò)Prism,系統(tǒng)增加了一個(gè)邏輯抽象層,因此Hadoop集群能夠跨多個(gè)數(shù)據(jù)中心運(yùn)行,從而有效地提升了容量方面的限制量級(jí)。
Facebook表示,他們很快將會(huì)把Prism變成一個(gè)開(kāi)源項(xiàng)目。對(duì)于企業(yè)界而言,這無(wú)疑將成為一個(gè)可與2006年雅虎公開(kāi)Hadoop源代碼相媲美的壯舉。雖然目前還不清楚Prism對(duì)其他公司具有多大的實(shí)用性,但是對(duì)于其他大型企業(yè)來(lái)說(shuō),他們剛剛也在Hadoop和NoSQL方面遇到了與Facebook相同的問(wèn)題。
Facebook技術(shù)研發(fā)的背后是該公司業(yè)績(jī)未達(dá)到華爾街預(yù)期的緊迫感。不過(guò),近期Facebook移動(dòng)業(yè)務(wù)盈收方面的好消息稍微緩解了華爾街對(duì)其的失望情緒。事實(shí)上,無(wú)論Facebook是否能夠持續(xù)從移動(dòng)業(yè)務(wù)中獲得盈利,還是從免費(fèi)服務(wù)中產(chǎn)生充足的營(yíng)收,增加廣告宣傳是一個(gè)日益緊迫的問(wèn)題。無(wú)論采取哪種模式,基于Hadoop的分析方式將成為Facebook的大數(shù)據(jù)技術(shù)選擇。Prism等新項(xiàng)目則讓幾年前看似無(wú)法逾越的限制正在被打破。