敏捷網絡,“盡在掌控”的網絡運維新體驗
凌晨2:00,某跨國公司運維機房內,IT運維人員們正在緊張地排查分析視頻會議系統為何無法正常使用,按計劃當天上午9:00 CEO要召開一個高層的視頻會議,所以視頻會議系統必需要在上班前恢復正常,運維人員面臨著巨大的壓力。您是否對這樣的場景似曾相識?正如網絡上流行的一首打油詩 “鋤禾日當午,不如運維苦,對著破電腦,一調一下午”寫出了IT運維人員的心聲。
隨著網絡規模越來越大、網絡中承載的業務類型越來越多樣化,當用戶業務體驗受損時,IT運維人員往往難以判斷是業務系統的問題,還是網絡引起的問題,更不用說定位具體什么問題導致用戶體驗變差,運維人員很多時候都在忙著“救火”。如何掌握業務質量情況,如何實現網絡故障快速精準定位,這些已經成為網絡運維領域急需解決的問題。
影響用戶業務體驗的因素有哪些?
如果想準確定位業務體驗變差的原因,首先需要了解哪些因素會對用戶業務體驗有影響,這樣才能做到知己知彼百戰不殆。除了人們熟知的網絡通斷、帶寬不夠會影響業務體驗外。還有很多其他因素也在影響用戶的業務體驗,例如:設備老化丟包、網絡配置錯誤、光纖劣化丟包、網絡攻擊、流控失效等等,但卻由于缺少有效的檢測方法和技術而被人們長期忽略。
當網絡中傳輸數據類業務時,即便網絡出現了丟包,TCP報文會重傳,用戶會感覺到網絡訪問比較慢,但并不會造成嚴重影響。而高清視頻、語音等實時類業務對網絡質量提出了更高的要求,以高清視頻業務為例,要求丟包率小于10-6 ,也就是說一旦100萬個包里面丟一個包,就會出現視頻馬賽克,而且用戶也能立刻體驗到。為了保證視頻類業務的正常使用,有些大型企業往往會單獨建立一張視頻會議專網。
業務質量難檢測,網絡故障難定位的根本原因在哪里?
伴隨著互聯網的快速發展,IP網絡已經成為信息承載的基石。大家都知道 IP網絡是一個面向無連接的網絡,采取“盡力而為”的轉發模式,這成就了IP網絡的大規模部署和發展,為今天豐富多樣的互聯網業務提供了基礎保障,但這同時也是造成業務質量難檢測,網絡問題難定位的根本原因。
IP網絡中傳輸的只有數據報文,沒有任何與業務相關的信息,可以說網絡與業務完全割裂,這是造成業務質量難檢測,網絡故障難定位的根本原因所在。當您在視頻會議中出現馬賽克,體驗變差時,網絡卻無法快速感知到業務質量變差并反饋給IT運維人員來進一步解決。只有當您實在無法忍受并將問題報給IT人員時,他才知道網絡出現了問題,但基于現有的網絡質量檢測技術IT人員也很難快速定位出產生問題的具體原因。面對IP網絡無連接特性而帶來的質量檢測難題,現有的網絡質量檢測技術還未能很好的解決
“盡力而為”轉變為“盡在掌控”的敏捷網絡,帶來全新運維體驗
基于以上的分析,我們就在考慮,能否為無連接的IP網絡增加一個主動的質量感知機制。當網絡上運行的業務出現問題時,網絡能夠感知到并將故障點信息快速反饋給IT人員。這就好像我們人體一樣,身體有一個自我感知和反饋的系統,當受涼感冒時,會通過發燒、頭痛等癥狀告訴你身體內出現了問題,你需要去看醫生或者吃藥來進行進一步的治療以防止病情加重。網絡也同樣需要這樣一個機制。
華為利用專利技術解決了IP網絡質量難檢測,故障難定位的問題。華為敏捷網絡利用iPCA(包守恒算法,Packet Conservation Algorithm for Internet)技術,為面向無連接的IP網絡增加了一個主動的質量感知機制,即保留了IP網絡面向無連接的特性,也實現了網絡質量主動感知,從而可以全面提升網絡質量檢測和故障精確定位能力,降低網絡運維成本。
那么,iPCA是如何實現網絡質量檢測的呢?對于任何一個網絡區域,都存在網絡邊界,iPCA通過統計一段時間內流入與流出該網絡區域的報文數量是否相等,來判斷該網絡區域是否存在問題。就像我們要判斷一個容器是否漏水一樣,可以從入口倒些水進去,根據出口接到的水與倒入的水是否一樣多來進行判斷。進一步類推,如果水從流入到流出經過了多個容器和連接的管道,我們也可以采用這種方法來逐段檢測到底是哪個一段漏水或者堵塞了。要真正在網絡中部署,并實現網絡質量的精準檢測,還有一些技術難點需要解決,例如:如何解決多入口多出口網絡區域的檢測而不用建立點到點之間連接?如何基于真實業務流來檢測并保證檢測的精準性與實時性?華為基于在網絡領域的深厚技術積累已經完美解決了上述技術難點。
借鑒SDN的集中控制思想,集中統計并計算網絡邊界的多個端口在一段時間內流入與流出的報文數量之差,從而判斷網絡的丟包情況,基于IP報文進行檢測和通信,各檢測點之間無需建立點到點的連接,便于大規模部署。為了實現網絡質量精準檢測,iPCA首先采用外部時鐘同步法對各檢測設備進行時鐘同步,并且在網絡區域入口處,利用IP報文頭中的保留位對業務報文進行周期性的“染色”,可以理解為對業務報文做了標記,在出口處根據標記位來統計收到的報文數量,實現了基于真實業務報文來檢測網絡質量情況,對業務無影響。如果報文經過多個網絡設備及鏈路,利用iPCA技術,還可以檢測出具體是那臺設備、那段鏈路出現了問題,實現網絡故障精確定位,幫助運維人員極大提高故障定位效率。
讓我們一起來看看iPCA能為您的日常運維帶來哪些好處。
1、 首先,當網絡中的設備啟用了iPCA功能時,IT運維人員可以從網管上全面掌握網絡的質量情況。例如:查看關鍵設備/鏈路是否有大量丟包、了解某些重要業務的質量情況。
2、 其次,實現網絡問題的精準定界。例如:企業通過租用運營商專線連接多個分支機構時,當跨廣域的業務出現問題時,可以通過在廣域網邊緣設備啟用iPCA功能來具體判斷是運營商廣域網、還是企業自身的園區網絡出現了問題,實現網絡問題精確定界。
3、 最后,實現網絡問題的精確定位。當某網絡區域出現大量丟包時,網絡不僅能主動告知運維人員某類業務變差,網絡出現問題,運維人員還可以進一步分析和定位具體是網絡鏈路上的哪臺設備、哪個鏈路出現了問題,做到了網絡問題快速、精準定位,不用再去逐個設備排查,徹底解放了運維人員。
華為通過專利技術解決了IP網絡質量檢測的難題,幫助IT運維人員全面掌握業務質量情況,實現了IT運維人員的徹底解放。運維人員再也不用加班熬夜來定位網絡問題,不用天天忙著“救火”了。