Google公開數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì)
Google數(shù)據(jù)中心和基礎(chǔ)設(shè)施是業(yè)界公認(rèn)最為先進(jìn)的,以往他們保密做得很嚴(yán),所以所有相關(guān)的信息透露都會(huì)引起關(guān)注。畢竟,現(xiàn)在大紅大紫的Hadoop最初就是山寨人家的幾篇論文而已。
網(wǎng)易上的文章 介紹了Google數(shù)據(jù)中心中的網(wǎng)絡(luò)設(shè)計(jì),這方面信息之前是很稀缺的。文章應(yīng)該是摘譯自 Wired 。Wired文章的特點(diǎn)是八卦信息多(因?yàn)樗麄円獙懙氖枪适拢皇羌夹g(shù)本身),技術(shù)細(xì)節(jié)少,還時(shí)常有技術(shù)錯(cuò)誤(至少這篇文章里Jupiter交換機(jī)處理能力的數(shù)據(jù)就是過時(shí)的),但對(duì)了解一件事兒的來龍去脈還是有用的。
文中大致說的意思,就是Google很早就開始自己研發(fā)網(wǎng)絡(luò)設(shè)備了,因?yàn)樗麄兊南到y(tǒng)增長(zhǎng)很快,思科之類的設(shè)備滿足不了需要(勉強(qiáng)能用也貴得要死),反正和云計(jì)算其他領(lǐng)域是一樣的:互聯(lián)網(wǎng)公司發(fā)展遠(yuǎn)遠(yuǎn)超出傳統(tǒng)IT的范圍,所以只好自己玩了。
反正Google這種公司能招到***的人才,業(yè)界沒有就直接挖學(xué)校的教授(Amin Vahdat就是因?yàn)樽鲞^相關(guān)研究 PortLand 被請(qǐng)過去的)。然后用普通芯片加上Linux搞定交換機(jī),自己設(shè)計(jì)網(wǎng)絡(luò)協(xié)議,自己設(shè)計(jì)網(wǎng)絡(luò)控制軟件。***做出來超級(jí)大的網(wǎng)絡(luò)系統(tǒng)。相關(guān)的技術(shù)還有 SDN 。
比較引人注目的點(diǎn)是:“如今谷歌網(wǎng)絡(luò)內(nèi)部數(shù)據(jù)中心之間交換的數(shù)據(jù)量已經(jīng)超過了谷歌和整個(gè)互聯(lián)網(wǎng)之間交換的數(shù)據(jù)量。”
好在Google負(fù)責(zé)網(wǎng)絡(luò)的Fellow Amin Vahdat 還寫了一篇 官方博客 介 紹他們的數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì),強(qiáng)調(diào)是***次公開Google內(nèi)部五代網(wǎng)絡(luò)技術(shù)的細(xì)節(jié),從Firehose到Jupiter,***的Jupiter可以提供 1Pb/s的總對(duì)分帶寬,足夠10萬臺(tái)服務(wù)器每臺(tái)之間以10Gb/s交換信息,可以在十分之一秒之內(nèi)讀取所有美國國會(huì)圖書館的掃描數(shù)據(jù)。
不過文章很短,語焉不詳,只說了幾條原則:
以 Clos拓?fù)?安排網(wǎng)絡(luò),這種網(wǎng)絡(luò)配置用一組較小(較便宜)的交換機(jī)來提供一臺(tái)大得多的邏輯交換機(jī)的功能。
使用集中化的軟件控制棧來管理數(shù)據(jù)中心中的數(shù)千交換機(jī),讓它們像一臺(tái)大的fabric那樣工作。
自建軟件和硬件(使用來自Broadcom等供應(yīng)商的芯片),不太依賴標(biāo)準(zhǔn)Internet協(xié)議,更多使用根據(jù)數(shù)據(jù)中心定制的協(xié)議。(Wired文章里說定制協(xié)議叫Firepath,比BGP和OSPF之類更簡(jiǎn)單、更快也更容易擴(kuò)展)
好在Google管基礎(chǔ)設(shè)施的老大Urs Hölzle在博客下面評(píng)論說:“等著我們的論文吧,8月的SIGCOMM 2015。” 他們?cè)?SIGCOMM 上已經(jīng)提交的論文名為“Jupiter Rising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network ”。
讓我們拭目以待吧。