數(shù)據(jù)中心NFV技術(shù)可靠性研究
數(shù)據(jù)中心NFV是通過(guò)使用x86等通用性硬件以及虛擬化技術(shù),來(lái)承載很多功能的軟件處理,使網(wǎng)絡(luò)設(shè)備功能不再依賴(lài)于專(zhuān)用硬件,降低網(wǎng)絡(luò)設(shè)備成本。NFV是網(wǎng)絡(luò)運(yùn)營(yíng)商主推的網(wǎng)絡(luò)虛擬化技術(shù),這有利于大幅降低網(wǎng)絡(luò)運(yùn)營(yíng)商的設(shè)備采購(gòu)成本。不過(guò),運(yùn)營(yíng)商需要的是高可靠性的網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)可靠性要求最高,但看看我們應(yīng)用了虛擬化技術(shù)的表現(xiàn),2015年十大云計(jì)算宕機(jī)的收入損失超過(guò)了31 Million美元,顯然這樣的技術(shù)無(wú)法滿(mǎn)足運(yùn)營(yíng)商的可靠性要求。運(yùn)營(yíng)商當(dāng)然不愿意放棄自己提出來(lái)的NFV,更何況還有SDN躍躍欲試,那該怎么辦?本文給出了一些提升NFV可靠性的思路。
我們需要先來(lái)看看部署了NFV 之后,對(duì)可靠性的判斷準(zhǔn)則是否發(fā)生了變化。NFV網(wǎng)絡(luò)中增加了軟件控制部分,這樣可靠性評(píng)估準(zhǔn)則要考慮服務(wù)停機(jī)時(shí)間與硬件停機(jī)時(shí)間的差異,要建立彈性軟件的評(píng)估方式,這樣當(dāng)硬件檢測(cè)到故障時(shí),還要通報(bào)給NFV,這個(gè)過(guò)程要有延遲時(shí)間,所以需要故障檢測(cè)和切換技術(shù)要比以前更精確,之前故障檢測(cè)是秒級(jí),現(xiàn)在就需要毫秒級(jí),小于50MS。之前故障切換是秒級(jí),現(xiàn)在就需要微秒級(jí),在幾百微秒以?xún)?nèi)。部署NFV之后,需要用新的工具來(lái)解決故障告警、根本原因分析和恢復(fù),這是因?yàn)樘摂M化技術(shù)使得構(gòu)成服務(wù)的部件分散在網(wǎng)絡(luò)多個(gè)不同的地方,檢測(cè)麻煩不會(huì)像觀察紅燈一樣簡(jiǎn)單,需要軟件綜合分析。
NFV環(huán)境下要提升可靠性,需要具有三個(gè)方面的處理機(jī)制:一是故障檢測(cè)預(yù)測(cè),通過(guò)對(duì)數(shù)據(jù)控制流檢查、性能監(jiān)視、網(wǎng)絡(luò)設(shè)備日志分析、異常檢查等等,判斷有無(wú)發(fā)生故障;二是故障診斷定位,一旦發(fā)現(xiàn)故障即刻啟動(dòng)故障定位,通過(guò)分析確認(rèn)哪里發(fā)生了故障,故障的相關(guān)性和優(yōu)先圖;三是故障恢復(fù),根據(jù)故障位置,啟動(dòng)故障恢復(fù)程序,可以進(jìn)行業(yè)務(wù)遷移、冗余備份、數(shù)據(jù)保護(hù)等恢復(fù)動(dòng)作,通過(guò)這三步來(lái)達(dá)到提升NFV可靠性的目的。這樣說(shuō)很簡(jiǎn)單,實(shí)際實(shí)現(xiàn)起來(lái)是非常難的。就拿故障診斷來(lái)說(shuō),取決于故障檢測(cè)的準(zhǔn)確性,很多網(wǎng)絡(luò)故障,不少的網(wǎng)絡(luò)技術(shù)專(zhuān)家分析很久都無(wú)法明確原因,現(xiàn)在靠機(jī)器來(lái)完成,難度更大,要先將人的分析經(jīng)驗(yàn)輸入到機(jī)器中進(jìn)行學(xué)習(xí),然后由機(jī)器代替人來(lái)做處理,只有這樣切換才來(lái)記得,任何一個(gè)環(huán)節(jié)有人為的介入,處理時(shí)間都會(huì)被拉長(zhǎng),業(yè)務(wù)就會(huì)受到影響,NFV采用軟件自動(dòng)控制的方法,可以將故障發(fā)現(xiàn)、排查和隔離過(guò)程控制到毫秒級(jí),達(dá)到網(wǎng)絡(luò)高可靠性的目的。
僅具備這些處理機(jī)制還遠(yuǎn)遠(yuǎn)不夠,NFV環(huán)境下故障檢測(cè)的數(shù)據(jù)規(guī)模大,硬件和軟件解耦導(dǎo)致涉及的網(wǎng)絡(luò)層次更多,很多數(shù)據(jù)還可能不能反映出故障原因,甚至網(wǎng)絡(luò)已經(jīng)故障了這些數(shù)據(jù)還表現(xiàn)正常,這樣就不會(huì)觸發(fā)故障診斷。還有NFV環(huán)境下,發(fā)生故障傳播快和容易相互干擾,易于產(chǎn)生不可預(yù)知的故障,這些都會(huì)給診斷故障帶來(lái)很大難度,就算分析出來(lái)故障位置,不同的軟件可靠性評(píng)價(jià)準(zhǔn)則不同,執(zhí)行的恢復(fù)動(dòng)作也有差異。有些故障是需要中斷業(yè)務(wù)恢復(fù)的,有些故障是做局部微調(diào)就可以恢復(fù)的,當(dāng)需要做這種恢復(fù)決策時(shí),就算是人為評(píng)估都很難把握,更何況將這個(gè)決策權(quán)交給軟件去做,誤判一定時(shí)有發(fā)生。NFV技術(shù)也是一種全新的網(wǎng)絡(luò)技術(shù),新的系統(tǒng)意味著有更多的軟件BUG。
為了進(jìn)一步提升NFV技術(shù)的可靠性,還要在多個(gè)方面下功夫。運(yùn)營(yíng)商網(wǎng)絡(luò)對(duì)可靠性的要求是5個(gè)9,而x86的可靠性通常只有2~3個(gè)9,所以基于x86實(shí)現(xiàn)的NFV可靠性不夠高。這時(shí)可以考慮虛擬機(jī)分散開(kāi)來(lái),將同一個(gè)網(wǎng)元功能的多個(gè)虛擬機(jī)散布到異址物理設(shè)備上,降低單點(diǎn)故障對(duì)網(wǎng)絡(luò)的影響。通過(guò)對(duì)虛擬機(jī)進(jìn)行熱備份,專(zhuān)有設(shè)備備份及建立通用備份池對(duì)多個(gè)網(wǎng)元的虛擬機(jī)進(jìn)行備份的方式,提高網(wǎng)元可靠性。還要在故障檢測(cè)上下功夫。比如支持黑盒故障的檢測(cè),支持未知錯(cuò)誤的監(jiān)測(cè),檢測(cè)時(shí)間要快,還有就是可擴(kuò)展性好。將這些檢測(cè)數(shù)據(jù)獲取到了以后,通過(guò)機(jī)器學(xué)習(xí)的方式進(jìn)行檢測(cè),將低維數(shù)據(jù)變化到高維數(shù)據(jù)。一般通過(guò)機(jī)器學(xué)習(xí)的檢測(cè)有:有監(jiān)督的學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),它們區(qū)別在于是否需要標(biāo)簽訓(xùn)練數(shù)據(jù)。在NFV技術(shù)中一般采用無(wú)監(jiān)督學(xué)習(xí)方式。通過(guò)機(jī)器學(xué)習(xí)就可以引入很多的數(shù)理統(tǒng)計(jì)技術(shù),來(lái)增強(qiáng)分析的準(zhǔn)確性,這些技術(shù)可以來(lái)自基于統(tǒng)計(jì)、基于深度,基于密度和聚類(lèi)等等方面綜合分析出來(lái)結(jié)果。NFV技術(shù)可以采用動(dòng)態(tài)自適應(yīng)快速故障檢測(cè)技術(shù),如SOM算法、LOF算法、Bayesian Network算法等。對(duì)CMS、CNFM等管理系統(tǒng)同樣采用備份、帶外管理等機(jī)制,進(jìn)一步提升系統(tǒng)可靠性。當(dāng)通過(guò)這些一系列的軟件得到故障原因后啟動(dòng)自動(dòng)告警、自動(dòng)切換等一系列措施,實(shí)現(xiàn)系統(tǒng)故障自愈,還需要支持在網(wǎng)絡(luò)軟硬件解耦后進(jìn)行端到端的故障定界定位,對(duì)各個(gè)組件的安全信息比如日志、告警和異常輸出等進(jìn)行智能分析和關(guān)聯(lián),快速定位或提前預(yù)測(cè)系統(tǒng)安全隱患。谷歌數(shù)據(jù)中心的建設(shè)思路在可靠性方面考慮良多,在處理宕機(jī)這類(lèi)故障的時(shí)候,可以依靠軟件迅速地平滑過(guò)度,實(shí)現(xiàn)任務(wù)轉(zhuǎn)移,以最快的速度保證SLA指標(biāo)。
NFV將是一種革命性的新技術(shù)發(fā)展趨勢(shì),將對(duì)網(wǎng)絡(luò)技術(shù)發(fā)展帶來(lái)深遠(yuǎn)的影響。NFV技術(shù)在數(shù)據(jù)中心,尤其是運(yùn)營(yíng)商的數(shù)據(jù)中心領(lǐng)域應(yīng)用獲得了極大的認(rèn)可,是運(yùn)營(yíng)商一直在推廣的網(wǎng)絡(luò)技術(shù)。雖然NFV在可靠性方面還有待提升,它真正走向市場(chǎng)和普及,還會(huì)面臨眾多的問(wèn)題和挑戰(zhàn),但這并不妨礙很多運(yùn)營(yíng)商愿意嘗試,NFV技術(shù)必將快速走向成熟。