【干貨分享】360網絡運維的最佳實踐
原創嘉賓介紹
李洪亮,奇虎360網絡運維負責人。2007年加入360公司,目前已有11年的網絡與網絡安全工作經驗,擁有CISSP和CCNP證書,帶領團隊實現了奇虎360網絡架構從1000臺服務器到10萬臺服務器的跨越式發展。
在我2007年加入360公司的時候,360公司的服務器數量是1000臺,經過不同階段的發展,現在已經達到了10萬臺服務器的規模。下面,我按照公司服務器發展的不同階段,分享在網絡建設和運維過程中遇到的哪些挑戰、陷阱、經驗和收獲。
階段一、1-1000臺服務器規模
1.需求:奇虎前期做的是社區搜索,規模不大。業務部門的需求是網絡能夠通暢運行就可以。
2.人員:沒有專職的網絡工程師
3.架構:核心與接入的二層結構,我們采用的是星型結構。
4.挑戰:工作量大,各方面的工作都要接觸。
5.陷阱:有缺陷的網絡設備,不靠譜的機房。
- 如果你買到有缺陷的網絡設備,就會對網絡造成很大的運行壓力。
- 如果碰到不靠譜的機房,從我的經驗來看,機房泡水出現的大概頻次是3年左右。大家特別需要注意空調的冷凝水漏水,它造成的損害很大。
6.經驗:綁定一家有實力的設備廠商,特別是對于體量不大的小型公司。
階段二、1000-5000臺服務器規模
1.需求:高可靠
2.人員:專職網絡工程師(CCIE) 大于2位
3.架構:簡單二層結構/多數據中心,其中數據中心通過光纖來互聯。
4.挑戰:工作量大,因為業務部門的需求增加,工作壓力加大。
5.陷阱:
- 業務復雜度挑戰網絡設備,比如業務部門根據業務發展的實際對于網絡提出特殊要求。
- 經常中斷的光纖,需要選擇靠譜的供應商。比如某年7月份斷了22次光纖,這種狀況如出現,會讓網絡運維人員崩潰。
- 網絡斷了竟然不知道,這是很大的挑戰。網絡運維部門需要早于業務部門發現網絡問題。
6.經驗:
- 與廠商溝通業務場景, 一定要選擇有余量的網絡設備。
千萬不要把網絡設備的數據指標范圍卡的過于嚴格。
- 選擇靠譜的傳輸和光纖供應商
- 搭建網絡監控和報警平臺
階段三、5000-10000臺服務器規模
1.需求:高可靠/不丟包
2.人員:網絡工程師/網絡架構師大于5人,這個階段就要融入至少一個網絡架構師的角色。
3.架構:大規模數據中心/異地多數據中心。這里提到的大規模數據中心的一個數據中心要有2-3千臺服務器規模。
4.挑戰:
- 工作量巨大,壓力山大。這個階段單人的工作量壓力***,如通過這個階段,你就會成為部門精英了。
- 人員誤操作增多。
隨著業務需求增多,網絡運維人員相對也是增多,必然增加人員誤操作發生的幾率,一旦出現情況,網絡運維人員可能沒法向業務部門交代。
- 網絡設備故障增多
5.陷阱:業務沖擊網絡設備極限,公司上線搜索,Hadoop集群,存在很大概率出現丟包現象。
一個搜索需求的提出,會在一個集群的幾百臺服務器上進行request,產生結果會同時到達端口,遠遠超過10毫秒1.25MByte的端口處理上限。在這種情況下,如果交換機buffer下的話,肯定會出現丟包現象,這個情況就是我們遇到的一個“坑”。
6.經驗:
- 擴充人員規模。
隨著異地業務的開展,你的人員需要頻繁地出差。可是出差的工作效果不高,時間浪費在路上,還造成溝通成本增加。這個問題的解決辦法就是擴大人員規模。
- 找經驗豐富的網絡架構師
網絡架構師建議從5萬臺服務器規模以上公司來物色,可以節省很多試錯成本和快速找到合適資源,你懂得!
- 明確日常操作規范,避免誤操作發生的幾率。
- 專業的網管軟件。
特別關注日常幾百臺網絡設備的狀態情況,比如電源、風扇和溫度,***能夠時刻關注這些數據的狀態,出現情況可以及時報警。
- 整理準確的設備登記列表,這是上市審計的必要工作,要求詳細記錄每個設備的機器號、場地和設備的運轉信息等。
如果前期不做好這個工作,當網絡設備的規模達到1萬臺時,后期再做設備登記的工作將非常繁重,我們就經歷了大概有小半年的時間來理清這些列表。如果有上市需求的公司,一定注意提前把這個工作做好。
#p#
階段四、10000-50000臺服務器規模
公司推出了搜索,業務蒸蒸日上。
1.需求:穩定/靈活
2.人員:明確團隊分工,包括建設、架構和運維三方面。
3.架構:超大規模數據中心,實現多地多點大帶寬互聯。
4.挑戰:
- 業務對網絡的穩定提出更高的要求,網絡不能老斷,不能出現丟包的情況。
因基數增加導致設備故障頻發,2014年360損壞了十幾臺網絡設備,這種情況還是很嚴重。縮短網絡設備的故障修復時間對網絡運維工程師是一個挑戰。
- 上市審計
5.陷阱:廠商激烈競爭會給網絡運維工程師帶來壓力。
6.經驗:
- 明確網絡設備測試標準
各家廠商的競爭白熱化,出現設備間的對比,***的解決辦法是明確網絡設備的測試標準,所有的設備需要通過我們的測試標準才可以進入采購環節。
- 在架構設計時消除單點故障,包括設備的故障,甚至光纖和路由的故障。
多個路由經過一條光纖,如遇到野蠻施工,會出現多點中斷,造成的影響較大,所以網絡工程師要通過技術保障避免這種情況的發生。
- 制定備品備件庫和應急預案,把可能存在故障風險的設備進行列表,逐一排查,或者用其他設備進行替代,放置到備件庫。
- 網絡建設運維自動化提上日程。
階段五、50000-100000臺服務器規模
公司完成上市,有充足的資金來進行網絡的基礎建設,也有更多的業務去發展。
1.需求:彈性/前瞻/可視
(1)彈性業務部門出現對網絡的要求不明確現象。網絡運維人員需要自發考慮網絡彈性,更好適應業務的發展,或者根據不同部門業務發展情況的不同,進行內部設備的部署調整。
(2)前瞻作為網絡架構師或者網絡運維負責人,需要預知業務的發展方向,并提前進行網絡準備,安排好工作的順序。
(3)可視業務部門對于網絡的運行情況實現實時可見,比如某業務的日常流量分布情況等。
2.人員:團隊分工/梯隊建設
團隊分工更加明確,需要進行人員的梯隊建設。
3.架構:
- 超大規模的云數據中心
一個云數據中心定位在1萬臺以上的服務器規模。
- 多地多點光傳輸網絡
- 自有BGP業務
4.挑戰:
- 對業務和行業的發展方向有前瞻能力
- 業務彈性的支持
5.陷阱:SDN(服務定義網絡)
SDN的概念很火,個人認為有誤導的嫌疑;廠商為了做SDN而做SDN,沒有明確的目的性。這塊建議其他公司在做SDN的時候,提前考慮清楚業務對于網絡的真正需求是什么,然后現有的網絡有哪些是滿足不了業務的需求。可以明確看到云,網絡虛擬化的需求,傳統的網絡是滿足不了的,需要通過某種技術放到SDN下面去滿足,這才是一個比較好的發展方向。
6.經驗:
- 通過自動化工具提高人員工作效率
- 提供網絡可視化接口,提前打好基礎,更好地看到網絡運營的情況。
- 更細粒度的故障監控,考量是否做到精細化運維的一個點。
- BGP路由優化
當你的路由在國內的運營商(中國移動、中國電信和中國聯通)網絡上跑起來以后,通過測試看起來網絡是通的,但是國外運營商的網絡接口可能存在問題,導致國外的用戶訪問不了360的BGP網絡資源。這里有兩個工具推薦使用,一個是Looking glass,大的運營商可以通過這個工具從他的AP網絡查看你的BGP的路由收取情況,如果沒有獲得這塊服務,需要跟運營商進行溝通。比如我們跟美國Sprint就出現過這個問題,業務運營一段,有用戶反映我們的網絡有問題。另一個工具是RADb,需要根據IP地址進行登記,歐洲的小運營商比較認可這個工具,費用大概一年400美元。
總結與討論
1.老板是否重視網絡團隊?
開玩笑的說,老板會在網絡出問題時,重視網絡。其實,老板本來就應該更關注公司業務,因為網絡是為了滿足公司業務的發展規模而生的,網絡運維工程師的責任就是要提供一個優質的網絡。
2.把網絡做好是否很難?
領導對網絡的重視程度是一個方面,拋開網絡基礎來說,把網絡做好不是很難,只要做好兩件事就好,一個是找到靠譜的人,一個是找到靠譜的設備。相對其他事情都簡單一些。