使用Go代替Ruby,將服務(wù)器數(shù)量從30降到2
使用另一種語言去重寫一個服務(wù),聽起來是不是很折騰?然而云服務(wù)供應(yīng)商Iron.io就這么做了,并成功的將服務(wù)器從30臺降至了2臺。Iron.io在其官方博客上公布了整個事件的始末,下面來了解一下:
Iron.io與IronWorker
Iron.io起初為幫助其它公司建立應(yīng)用程序的咨詢公司,現(xiàn)為云服務(wù)供應(yīng)商。Iron.io開發(fā)IronWorker的理由同樣很老套:
之前說過Iron.io曾是家咨詢公司,而在IronWorker開發(fā)的那段時間,AWS和Ruby on Rails是兩個非常火的領(lǐng)域。而Iron.io有幾個客戶建立的硬件設(shè)施會不斷的(7X24小時)給其發(fā)送數(shù)據(jù),為了收集和處理這些數(shù)據(jù),Inro.io建立了他們自己的內(nèi)部服務(wù)“worker as a service”。至于發(fā)行的原因就很老套了,在自己使用的同時,忽然覺得其它機構(gòu)可能也會有類似的需求(很類似“書販子”Amazon?),于是就誕生了發(fā)行版IronWorker。
理所當(dāng)然, IronWorker首發(fā)版使用的是Ruby和基于Rails的API。起先, IronWorker表現(xiàn)的很不錯,花很少的精力和時間就可以支撐相當(dāng)重的負(fù)載。然而很快 IronWorker就受到了Rails的限制:
又是RoR惹的禍
為了保持服務(wù)的流暢,Iron.io一直將其服務(wù)器CPU使用率保持在50-60%;CPU使用率一旦超過這個范圍,就會增加服務(wù)器數(shù)量。當(dāng)然如果不介意一直增加服務(wù)器數(shù)量,這也是可行的,然而很快他們就介意了!
當(dāng)某個“巨大”請求連接到它們的服務(wù)器,很可能就會產(chǎn)生一個多米諾效應(yīng)導(dǎo)致整個服務(wù)器集群的崩潰:

一旦某些線程占用高于50%以上,Rails服務(wù)器CPU使用率將隨之飆升到100%,而這個服務(wù)器將變的異常緩慢。負(fù)載均衡器則會認(rèn)為這個服務(wù)器發(fā)生故障,將其從服務(wù)器集群中移除;但是被移除服務(wù)器上的作業(yè)將會被分配到剩余的服務(wù)器上,于是問題就發(fā)生了——導(dǎo)致整個事件發(fā)生的線程并未被移除或得到處理。就這樣惡性循環(huán)產(chǎn)生,集群中的服務(wù)器被一臺又一臺的移除,直至整個系統(tǒng)崩潰。
唯一避免這個問題產(chǎn)生的方法就是增加足夠的計算能力,這就意味著巨額成本的產(chǎn)生。基于多年的優(yōu)秀(使用更少資源承擔(dān)更多負(fù)載)開發(fā)經(jīng)驗,Iron.io決定重寫API,做掉罪魁禍?zhǔn)椎腞ails,這樣首先他們面臨的就是究竟該使用什么編程語言。
Go的脫穎而出
首先他們考慮的就是回到Java的性能優(yōu)勢上來,然而經(jīng)過多年使用Ruby的簡潔、明了及有趣,Java因為編碼效率上的劣勢被拋棄。接著是又考慮了一些比Ruby具備更高性能的腳本語言,比如:Python、JavaScript/Node;Java的派生物,比如:Scala和Clojure;還有一些其它語言,比如:Erlang、Go等。而在一些原型和性能測試后,最終他們選擇了Go。
而在當(dāng)時的那個環(huán)境下選用Go伴隨著很大的風(fēng)險,因為:當(dāng)時Go還沒有很大的社區(qū),也沒有許多開源項目,同樣也沒有許多成功的用例。使用Go有太多不可預(yù)測性存在,比如招聘優(yōu)秀的工程師;不過這些大部分都沒有發(fā)生。
Go版本使用情況
Go版本推出后,Iron.io的服務(wù)器數(shù)量直接從30臺減少到了2臺,附加的兩臺實現(xiàn)冗余服務(wù)器更是從未用到。CPU的使用率不到5%,而初始化過程中對比Rubby使用接近50M的內(nèi)存,Go版本只是用了不到幾百K。