成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

銳捷網絡:支撐AI的高性能數據中心網絡架構如何設計?

企業動態

 近日,工信部印發《促進新一代人工智能產業發展三年行動計劃(2018-2020年)》,意在加快人工智能從戰略到落地,推動人工智能和實體經濟深度融合。在新工業革命的背景下,大數據、計力、算法等快速迭代,正驅動人工智能進入新階段。2017年Q3,全球AI公司融資金額突破77億美元,是2012年的70余倍??赡軙腥苏f這是“泡沫”,而我更愿意相信這是人工智能發展的必然結果。

在AI技術的應用過程中,各個企業都在尋找能夠更好支撐高性能計算的基礎網絡解決方案。在《數據中心基礎網絡架構***實踐及未來發展趨勢》這篇文章中,我分享了如何設計一個穩定可靠的數據中心網絡,下面我們再來探討支撐AI應用的高性能無損網絡應該如何設計。

前面提到大數據、計算力、算法等快速迭代,正驅動人工智能進入新階段,而這些技術的實現對網絡的低時延、無丟包、高性能這三個方面提出更高要求。

▲ AI應用的技術體系及對數據中心網絡的要求

高性能和無丟包比較好理解,就是指網絡帶寬性能的提升以及網絡中不存在擁塞導致的丟包。產生時延的環節較多,要實現端到端的低時延,需要多角度分析:

其中,光電傳輸時延和數據串行時延相對較小,且很難通過架構設計來優化,我們應重點關注主機處理時延和設備轉發時延。在各大企業積極尋求的高性能計算方案中,基于以太網的RDMA(Remote Direct Memory Access)憑借其高性能和低成本優勢逐漸取代InfiniBand而成為主流技術。RoCEv2(RDMA over Converged Ethernet)技術基于UDP協議,對于建設支撐AI應用的高性能無損以網絡變得尤為重要。

結合設備轉發層面的時延優化手段,高性能無損網絡的實現取決于兩個要素:

· 無帶寬收斂(1:1)的網絡架構設計

· 基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)功能的優先隊列管理和擁塞管理

綜上,AI集群高性能計算和網絡方案實踐思路如下圖所示:

▲ AI集群高性能方案關鍵技術組合

在這里,我以25G網絡為例,結合業界主流產品形態,分享AI網絡架構設計和實現思路。

主要設計理念:

l 核心設備全線速高性能轉發,核心之間不互聯,采用Fabric架構,隔離核心故障,***程度降低核心故障的影響;

l 三層路由組網,通過ECMP提高冗余度,降低故障風險;

l TOR上下行收斂比嚴格實現1:1,通過提高核心設備接口密度擴展單集群服務器規模;

l 應用PFC+ECN功能,實現低延時無損網絡。

網絡架構設計:

1.中小型(集群規模1000臺)

▲ 架構設計

架構特性:

l 每臺TOR采用8*100GE上聯8臺32口100G BOX交換機,OSPF/BGP組網

l 適用集群規模1000臺

l 每臺TOR下聯32臺Servers,IDC內收斂比1:1 ,集群帶寬25Tbps

2.中型(集群規模2000臺)

▲ 架構設計

架構特性:

l 每臺TOR采用8*100GE上聯8臺64口100G BOX,OSPF/BGP組網

l 適用集群規模2000臺

l 每臺TOR下聯32臺Servers,IDC內收斂比1:1 ,集群帶寬50Tbps

3.大型(集群規模2000-18000臺)

▲ 架構設計

架構特性:

l 每臺TOR采用8*100GE上聯4~8臺核心(機框式),BGP組網

l 適用集群規模2000~18000臺

l 每臺TOR下聯32臺Servers,IDC內收斂比1:1 ,集群帶寬50~450Tbps

4.超大型(集群規模20000+臺)

▲ 架構設計

架構特性:

l 單POD集群規模1000~2000臺,數據中心集群規模20000+,BGP組網

l POD內收斂比1:1,單POD集群帶寬25Tbps,總集群帶寬500Tbps+

l POD內收斂比和上行帶寬根據集群帶寬需求靈活配置,適用與非AI應用混合部署

在數據中心網絡中,PFC和ECN功能將部署在Leaf和Spine設備上。PFC作用于設備互聯端口,通過反壓影響上游端口隊列的發送速率,而ECN是作用在設備轉發過程,最終影響的是數據流的發送方,通過降低某條數據流發送速率規避數據丟包。

l PFC 機制將以太鏈路上的流量區分為不同的等級,基于每條流量單獨發送“不許可證”。相對于PAUSE幀而言,PFC可以將鏈路虛擬出8條不同等級的虛擬通道,當某條通道出現擁塞后不會影響其它通道。

l RoCEv2 定義了 RoCEv2 Congestion Management ( RCM ),其中擁塞管理用的特性ECN(RFC 3168)是在交換機出口(egress port)發起的擁塞控制機制。當交換機的出口buffer達到設定的閾值時,交換機會改變數據包頭中的ECN位來給數據打上ECN標簽,當帶ECN標簽的數據到達接收端以后,接收端會生成CNP(Congestion Notification Packet)并將它發送給發送端。CNP包含了導致擁塞的flow或QP的信息,當發送端收到CNP后,會采取措施降低發送速度。

l 由于PFC作用于整個隊列,而ECN只針對產生擁塞的具體會話,在設置PFC和ECN相關水線時,應做到先觸發ECN

近日,工信部印發《促進新一代人工智能產業發展三年行動計劃(2018-2020年)》,意在加快人工智能從戰略到落地,推動人工智能和實體經濟深度融合。在新工業革命的背景下,大數據、計力、算法等快速迭代,正驅動人工智能進入新階段。2017年Q3,全球AI公司融資金額突破77億美元,是2012年的70余倍??赡軙腥苏f這是“泡沫”,而我更愿意相信這是人工智能發展的必然結果。

在AI技術的應用過程中,各個企業都在尋找能夠更好支撐高性能計算的基礎網絡解決方案。在《數據中心基礎網絡架構***實踐及未來發展趨勢》這篇文章中,我分享了如何設計一個穩定可靠的數據中心網絡,下面我們再來探討支撐AI應用的高性能無損網絡應該如何設計。

前面提到大數據、計算力、算法等快速迭代,正驅動人工智能進入新階段,而這些技術的實現對網絡的低時延、無丟包、高性能這三個方面提出更高要求。

▲ AI應用的技術體系及對數據中心網絡的要求

高性能和無丟包比較好理解,就是指網絡帶寬性能的提升以及網絡中不存在擁塞導致的丟包。產生時延的環節較多,要實現端到端的低時延,需要多角度分析:

其中,光電傳輸時延和數據串行時延相對較小,且很難通過架構設計來優化,我們應重點關注主機處理時延和設備轉發時延。在各大企業積極尋求的高性能計算方案中,基于以太網的RDMA(Remote Direct Memory Access)憑借其高性能和低成本優勢逐漸取代InfiniBand而成為主流技術。RoCEv2(RDMA over Converged Ethernet)技術基于UDP協議,對于建設支撐AI應用的高性能無損以網絡變得尤為重要。

結合設備轉發層面的時延優化手段,高性能無損網絡的實現取決于兩個要素:

· 無帶寬收斂(1:1)的網絡架構設計

· 基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)功能的優先隊列管理和擁塞管理

綜上,AI集群高性能計算和網絡方案實踐思路如下圖所示:

▲ AI集群高性能方案關鍵技術組合

在這里,我以25G網絡為例,結合業界主流產品形態,分享AI網絡架構設計和實現思路。

主要設計理念:

l 核心設備全線速高性能轉發,核心之間不互聯,采用Fabric架構,隔離核心故障,***程度降低核心故障的影響;

l 三層路由組網,通過ECMP提高冗余度,降低故障風險;

l TOR上下行收斂比嚴格實現1:1,通過提高核心設備接口密度擴展單集群服務器規模;

l 應用PFC+ECN功能,實現低延時無損網絡。

網絡架構設計:

1.中小型(集群規模1000臺)

▲ 架構設計

架構特性:

l 每臺TOR采用8*100GE上聯8臺32口100G BOX交換機,OSPF/BGP組網

l 適用集群規模1000臺

l 每臺TOR下聯32臺Servers,IDC內收斂比1:1 ,集群帶寬25Tbps

2.中型(集群規模2000臺)

▲ 架構設計

架構特性:

l 每臺TOR采用8*100GE上聯8臺64口100G BOX,OSPF/BGP組網

l 適用集群規模2000臺

l 每臺TOR下聯32臺Servers,IDC內收斂比1:1 ,集群帶寬50Tbps

3.大型(集群規模2000-18000臺)

▲ 架構設計

架構特性:

l 每臺TOR采用8*100GE上聯4~8臺核心(機框式),BGP組網

l 適用集群規模2000~18000臺

l 每臺TOR下聯32臺Servers,IDC內收斂比1:1 ,集群帶寬50~450Tbps

4.超大型(集群規模20000+臺)

▲ 架構設計

架構特性:

l 單POD集群規模1000~2000臺,數據中心集群規模20000+,BGP組網

l POD內收斂比1:1,單POD集群帶寬25Tbps,總集群帶寬500Tbps+

l POD內收斂比和上行帶寬根據集群帶寬需求靈活配置,適用與非AI應用混合部署

在數據中心網絡中,PFC和ECN功能將部署在Leaf和Spine設備上。PFC作用于設備互聯端口,通過反壓影響上游端口隊列的發送速率,而ECN是作用在設備轉發過程,最終影響的是數據流的發送方,通過降低某條數據流發送速率規避數據丟包。

l PFC 機制將以太鏈路上的流量區分為不同的等級,基于每條流量單獨發送“不許可證”。相對于PAUSE幀而言,PFC可以將鏈路虛擬出8條不同等級的虛擬通道,當某條通道出現擁塞后不會影響其它通道。

l RoCEv2 定義了 RoCEv2 Congestion Management ( RCM ),其中擁塞管理用的特性ECN(RFC 3168)是在交換機出口(egress port)發起的擁塞控制機制。當交換機的出口buffer達到設定的閾值時,交換機會改變數據包頭中的ECN位來給數據打上ECN標簽,當帶ECN標簽的數據到達接收端以后,接收端會生成CNP(Congestion Notification Packet)并將它發送給發送端。CNP包含了導致擁塞的flow或QP的信息,當發送端收到CNP后,會采取措施降低發送速度。

l 由于PFC作用于整個隊列,而ECN只針對產生擁塞的具體會話,在設置PFC和ECN相關水線時,應做到先觸發ECN后再觸發PFC。

從外賣訂單和叫車訂單的智能調度,到電商平臺的智能推薦,再到人臉識別支付以及即將實現的全自動無人駕駛汽車量產,AI技術的應用已在方方面面影響著人們的生活和工作,讓大家的生活越來越便捷、時間利用越來越合理。但是,這都離不開基礎設施的支撐。銳捷網絡將憑借在數據通信領域近20年的技術積累和行業經驗,創新出更好的產品和解決方案,助力AI技術的蓬勃發展。

后再觸發PFC。

從外賣訂單和叫車訂單的智能調度,到電商平臺的智能推薦,再到人臉識別支付以及即將實現的全自動無人駕駛汽車量產,AI技術的應用已在方方面面影響著人們的生活和工作,讓大家的生活越來越便捷、時間利用越來越合理。但是,這都離不開基礎設施的支撐。銳捷網絡將憑借在數據通信領域近20年的技術積累和行業經驗,創新出更好的產品和解決方案,助力AI技術的蓬勃發展。

責任編輯:Jane 來源: 廠商新聞
相關推薦

2017-12-31 08:43:19

數據中心網絡架構AI

2012-05-08 19:37:06

數據中心銳捷網絡

2012-05-08 15:04:41

銳捷數據中心

2017-12-25 11:58:05

數據中心

2023-08-08 14:49:12

2018-03-16 09:13:45

RDMA高性能數據中心

2013-09-11 23:04:41

浪潮服務器銳捷網絡

2014-11-07 17:39:09

銳捷

2015-09-17 00:18:48

銳捷網絡/融合一體機

2015-09-21 11:42:39

銳捷網絡數據中心核心交換機

2015-10-08 09:47:28

銳捷

2015-11-02 09:26:27

銳捷網絡數據中心核心交換機

2016-01-07 09:42:51

銳捷網絡數據中心核心交換機

2016-01-28 11:25:20

銳捷網絡數據中心核心交換機

2016-02-25 10:08:47

銳捷網絡數據中心核心交換機

2016-05-20 10:55:34

銳捷網絡數據中心核心交換機

2011-10-28 19:01:47

銳捷網絡

2015-10-28 09:37:22

銳捷網絡數據中心核心交換機

2015-11-18 09:53:01

銳捷網絡數據中心核心交換機

2015-12-14 09:45:32

銳捷網絡數據中心核心交換機
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品91 | 日韩美香港a一级毛片免费 国产综合av | 亚洲精品高清视频 | 国产免费高清 | a免费视频| 久久天堂网 | 另类专区成人 | 天天天天天操 | 午夜羞羞 | 欧美在线观看一区 | 在线观看免费av网 | 精品国产乱码久久久久久牛牛 | 电影91久久久 | 九九热在线视频 | 日本特黄a级高清免费大片 特黄色一级毛片 | 91精品国产一区二区三区香蕉 | 成人在线播放网站 | 一区二区三区视频在线 | 天堂精品视频 | 亚洲精品视频免费 | ww亚洲ww亚在线观看 | 久久久久久久久久久久久久av | 97在线超碰 | 天天操天天干天天爽 | 久久精品国产清自在天天线 | 欧美区日韩区 | 免费观看成人av | 一区二区三区不卡视频 | 日本一区二区高清视频 | 欧美白人做受xxxx视频 | 成年免费大片黄在线观看岛国 | 精品成人一区二区 | 三级免费网 | 国产在线色 | 亚洲视频二区 | 国产色99精品9i | 国产精品一区二区不卡 | 天天操天天干天天曰 | jizz中国日本 | 欧美精品 在线观看 | 亚洲精品aⅴ |