是德科技推出全新KAI解決方案,助力人工智能領(lǐng)域破局產(chǎn)業(yè)困境
原創(chuàng)1939年,惠普于一個(gè)車庫(kù)誕生。1999年,惠普將盈利強(qiáng)勁的醫(yī)療和測(cè)量?jī)x器部門分拆出來(lái),成立獨(dú)立的安捷倫公司。2014年,安捷倫再度分拆,是德科技在此過程中正式獨(dú)立。在過去的十年間,是德科技推動(dòng)了眾多變革,成功轉(zhuǎn)型為以軟件為核心的測(cè)試解決方案供應(yīng)商。
隨著人工智能時(shí)代的到來(lái),是德科技在與眾多技術(shù)公司共拓人工智能市場(chǎng)的過程中,敏銳地洞察到技術(shù)發(fā)展趨勢(shì),同時(shí)也發(fā)覺構(gòu)建人工智能網(wǎng)絡(luò)仍會(huì)面臨許多困難。
近日,是德科技召開了媒體溝通會(huì)。會(huì)上,是德科技大中華區(qū)市場(chǎng)總經(jīng)理鄭紀(jì)峰以及是德科技大中華區(qū)高速數(shù)字市場(chǎng)部經(jīng)理李堅(jiān),分享了是德科技對(duì)人工智能技術(shù)趨勢(shì)的洞察和市場(chǎng)客戶痛點(diǎn)的見解,并重磅推出了KAI(Keysight AI)系列解決方案,主要涵蓋三大新產(chǎn)品矩陣。
是德科技大中華區(qū)市場(chǎng)總經(jīng)理鄭紀(jì)峰
是德科技大中華區(qū)高速數(shù)字市場(chǎng)部經(jīng)理李堅(jiān)
大模型與大算力時(shí)代的挑戰(zhàn)
隨著技術(shù)不斷進(jìn)步,早期人工智能應(yīng)用主要依靠小算力和模型。如今,我們已進(jìn)入大模型與大算力時(shí)代。實(shí)現(xiàn)大算力需大帶寬和海量數(shù)據(jù)交換能力,這對(duì)算力中心性能提出很高要求。
算力中心底層算力架構(gòu)依賴以太網(wǎng)、存儲(chǔ)、PCIe以及銅纜光纜等基礎(chǔ)設(shè)施。是德科技預(yù)計(jì),未來(lái)3-5年,以太網(wǎng)帶寬將從400/800G提升至1.6/3.2T;存儲(chǔ)方面,DDR技術(shù)將升級(jí)至DDR6或DDR7,HBM超寬帶存儲(chǔ)應(yīng)用也將普及。PCIe技術(shù)則將從PCIe5(32 GT/s)演進(jìn)至PCIe6甚至PCIe7(128 GT/s)。而技術(shù)迭代通常伴隨著帶寬翻倍增長(zhǎng)。
但帶寬提升也帶來(lái)諸多問題。一方面,功耗增加、溫度變化影響器件性能,部分器件對(duì)溫度敏感,微小波動(dòng)也會(huì)改變性能,器件間干擾也更明顯。另一方面,PCB板在高速率場(chǎng)景下因信號(hào)損耗和干擾過大難以為繼。
網(wǎng)絡(luò)規(guī)模擴(kuò)大還易導(dǎo)致效率降低。由于人工智能數(shù)據(jù)中心與傳統(tǒng)數(shù)據(jù)中心的差異較大,人工智能算法,尤其是基于神經(jīng)元網(wǎng)絡(luò)的算法,要求各節(jié)點(diǎn)之間進(jìn)行大量的數(shù)據(jù)交互。在這樣的網(wǎng)絡(luò)架構(gòu)下,若一個(gè)節(jié)點(diǎn)出現(xiàn)故障,整個(gè)網(wǎng)絡(luò)的效率都將受到影響,這與以往主要依賴南北通信的模式截然不同。
另外,GPU的使用效率也是問題。在訓(xùn)練大模型時(shí),企業(yè)至少需要“萬(wàn)卡集群”,否則將面臨訓(xùn)練精度低和可靠性不足的問題。眾所周知,GPU的成本極高,但在實(shí)際訓(xùn)練中,GPU處于高效工作狀態(tài)的時(shí)間僅為三分之一,其余時(shí)間則因等待數(shù)據(jù)傳輸而處于閑置狀態(tài)。由此可見,如果數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)不合理,GPU的使用效率將大打折扣。
此外,發(fā)生故障的概率也不容忽視。故障產(chǎn)生的原因多種多樣,一方面,許多器件在接近物理極限性能或超負(fù)荷運(yùn)行時(shí)會(huì)導(dǎo)致穩(wěn)定性變差,從而出現(xiàn)各種故障;另一方面,硬件問題頻發(fā),存儲(chǔ)、計(jì)算以及互連部件等都可能出現(xiàn)無(wú)法預(yù)測(cè)的故障。
總之,人工智能發(fā)展對(duì)大模型、算力和網(wǎng)絡(luò)有迫切需求。基于對(duì)這些趨勢(shì)和痛點(diǎn)的洞察,是德科技憑借自身經(jīng)驗(yàn),開發(fā)出一系列針對(duì)性解決方案。
全新解決方案涵蓋三大新品矩陣助力AI產(chǎn)業(yè)發(fā)展
是德科技秉持著打造全棧方案的基礎(chǔ)理念,致力于提供全生命周期的解決方案,貫穿客戶的預(yù)研、仿真、設(shè)計(jì)、初級(jí)樣品測(cè)試、生產(chǎn)制造以及維護(hù)等各個(gè)環(huán)節(jié)。
基于此,是德科技推出KAI(Keysight AI)解決方案,這是一系列端到端的方案,旨在助力客戶借助真實(shí)世界的AI工作負(fù)載仿真,驗(yàn)證AI集群組件,進(jìn)而拓展數(shù)據(jù)中心的AI處理能力。
KAI解決方案主要由計(jì)算、互連、網(wǎng)絡(luò)和能效四個(gè)部分構(gòu)成,全面覆蓋了數(shù)據(jù)中心的主要應(yīng)用場(chǎng)景。而本次發(fā)布的三款新品,主要聚焦互連部分和網(wǎng)絡(luò)部分,分別是224 Gbps/通道的DCA-M采樣示波器、互連與網(wǎng)絡(luò)性能分析儀和KAI數(shù)據(jù)中心構(gòu)建器。
224G/通道的DCA-M采樣示波器具備超大帶寬,可提供高達(dá)224 Gbps每通道的高速光信號(hào)分析;同時(shí)具備低抖動(dòng)、低噪聲和全集成的特點(diǎn)。
值得一提的是,224 Gbps/通道的DCA-M采樣示波器采用了時(shí)鐘恢復(fù)模塊(CDR)。以往的時(shí)鐘恢復(fù)模塊需借助外部獨(dú)立模塊實(shí)現(xiàn),而是德科技則將時(shí)鐘完全集成于儀表內(nèi)部,使客戶能夠直接投入使用224 Gbps/通道采樣示波器,無(wú)需外接其他時(shí)鐘模塊。
互連與網(wǎng)絡(luò)性能分析儀的亮點(diǎn)之一是不僅局限于物理層,更延伸至網(wǎng)絡(luò)層。當(dāng)前市場(chǎng)上的1.6T產(chǎn)品大多只能進(jìn)行物理層的誤碼率測(cè)試,而是德科技的互連與網(wǎng)絡(luò)性能分析儀則能實(shí)現(xiàn)前向糾錯(cuò)(FEC)和流量管控與流量協(xié)議的測(cè)試。
不僅如此,互連與網(wǎng)絡(luò)性能分析儀在保持高性能的同時(shí)還實(shí)現(xiàn)了較高的集成度,具備小巧的外形尺寸。它還能夠同時(shí)對(duì)兩個(gè)光模塊進(jìn)行測(cè)試,并為光模塊供電,每個(gè)模塊可提供高達(dá)40W的電力。
此外,互連與網(wǎng)絡(luò)性能分析儀配備了是德科技的互連測(cè)試軟件(ITS),為光模塊和電模塊的驗(yàn)證提供了強(qiáng)大的支持。很顯然,若想全面評(píng)估光模塊或電模塊性能,則需要對(duì)各種參數(shù)進(jìn)行組合分析,并繪制性能曲線,從而確定模塊在什么條件下才能達(dá)到最佳工作狀態(tài)。配備互連測(cè)試軟件以后,客戶便能精準(zhǔn)地標(biāo)定被測(cè)對(duì)象在不同場(chǎng)景下的性能表現(xiàn),無(wú)需每次連接模塊進(jìn)行測(cè)試,為互連網(wǎng)絡(luò)的構(gòu)建和優(yōu)化提供了極大的便利。
第三個(gè)新品是KAI數(shù)據(jù)中心構(gòu)建器,包括集合通訊組件、壓力測(cè)試組件在內(nèi)的一系列組件,能夠模擬數(shù)據(jù)中心內(nèi)真實(shí)的通訊工作環(huán)境及流量環(huán)境,從而對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試。
AI算力中心所面臨的挑戰(zhàn)在于單機(jī)性能無(wú)法體現(xiàn)網(wǎng)絡(luò)的實(shí)際性能,因此需要模擬真實(shí)的AI網(wǎng)絡(luò),并按照實(shí)際的計(jì)算方式進(jìn)行運(yùn)算,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)性能的準(zhǔn)確仿真。
AI網(wǎng)絡(luò)有兩個(gè)關(guān)鍵特征,其一是超級(jí)節(jié)點(diǎn)內(nèi)部的神經(jīng)元之間、GPU之間都要進(jìn)行大規(guī)模且頻繁的數(shù)據(jù)交互。在數(shù)據(jù)傳遞的過程中,不僅要確保數(shù)據(jù)有效傳輸,還要關(guān)注大量的網(wǎng)卡、交換機(jī)是否會(huì)構(gòu)成性能瓶頸。
另一個(gè)重要特征是“突發(fā)”(Burst)。當(dāng)向AI網(wǎng)絡(luò)輸入海量數(shù)據(jù)時(shí),不論計(jì)算時(shí)間的長(zhǎng)短,計(jì)算完成后均需進(jìn)行數(shù)據(jù)交換,同時(shí)還需兼顧計(jì)算任務(wù)。在這種短時(shí)間內(nèi)數(shù)據(jù)交換量極大的情況下,若數(shù)據(jù)傳輸不及時(shí),就會(huì)出現(xiàn)“等待”現(xiàn)象,這也是GPU大多處于等待的原因之一。因此需要模仿“脈沖式壓力”,從而檢驗(yàn)交換機(jī)和網(wǎng)絡(luò)是否能在巨大壓力下仍保持正常運(yùn)行。
是德科技運(yùn)用軟件部分來(lái)仿真數(shù)據(jù)中心的流量與通信特征,從而提升GPU和網(wǎng)絡(luò)的利用效率。而軟件是一套具有相應(yīng)規(guī)范的腳本,實(shí)際實(shí)施還是依托于數(shù)據(jù)中心構(gòu)建器。數(shù)據(jù)中心構(gòu)建器的核心是一塊超大規(guī)模的自研ASIC,其性能強(qiáng)大,可支持16個(gè)端口以及多設(shè)備級(jí)聯(lián),每個(gè)端口至少能仿真一個(gè)GPU,有時(shí)甚至可合成多個(gè)GPU的數(shù)據(jù),以此滿足仿真需求。
結(jié)語(yǔ)
在人工智能技術(shù)飛速發(fā)展的當(dāng)下,是德科技憑借對(duì)行業(yè)痛點(diǎn)的深度洞察,構(gòu)建起貫穿AI基礎(chǔ)設(shè)施全生命周期的解決方案體系,致力于從物理層到網(wǎng)絡(luò)層全方位助力AI產(chǎn)業(yè)。同時(shí),是德科技也期待與產(chǎn)業(yè)界各方繼續(xù)深化合作,共同攻克技術(shù)難題,攜手開創(chuàng)人工智能產(chǎn)業(yè)的美好明天。