中國初創(chuàng)芯片登Nature:比英偉達A10快500倍!自研光電混合技術(shù)
來自國內(nèi)的光電混合芯片技術(shù),登上最新頂刊Nature!
這次的成果主要聚焦在了自主研發(fā)的光子計算處理器——PACE(Photonic Arithmetic Computing Engine)。
簡單來說,PACE是一種基于光電混合的架構(gòu),它通過光執(zhí)行矩陣向量乘法,可以實現(xiàn)超低延遲和高能效的計算。
根據(jù)論文中公開的數(shù)據(jù)顯示,PACE在解決組合優(yōu)化問題(如伊辛問題和最大割/最小割問題)時,計算延遲低至3納秒,比傳統(tǒng)GPU快了兩個數(shù)量級。
這一突破的核心在于PACE的高度集成設計。
這個系統(tǒng)集成了超過16000個光子組件,并通過創(chuàng)新的2.5D混合先進封裝技術(shù),將光子集成電路(PIC)與電子集成電路(EIC)無縫集成。
這種設計不僅解決了大規(guī)模光電系統(tǒng)集成中的技術(shù)難題,更為商業(yè)化落地奠定了基礎(chǔ)。
而這個芯片技術(shù),正是來自國內(nèi)初創(chuàng)企業(yè)曦智科技。
據(jù)了解,這是繼八年前曦智科技創(chuàng)始人沈亦晨博士在Nature發(fā)表封面論文后,再一次登上這一頂刊。
那么PACE如此的速度,到底是如何做到的呢?
首次公開:16000個光子組件的高度集成
隨著人工智能的快速發(fā)展,計算需求呈爆發(fā)式增長,傳統(tǒng)電子計算面臨著功耗、速度等方面的瓶頸。
光子計算憑借光的獨特性質(zhì),如同時進行乘法和累加過程、數(shù)據(jù)傳輸能耗低、避免電阻損耗和發(fā)熱問題等,成為極具潛力的替代方案,受到全球廣泛關(guān)注。
然而,光子計算在發(fā)展過程中面臨諸多挑戰(zhàn)。一方面,集成光子學制造相對不成熟,缺乏先進的封裝解決方案,導致大規(guī)模集成光子系統(tǒng)在性能提升、標準設計與驗證以及封裝等方面困難重重。
另一方面,光子計算在光學存儲、計算精度(尤其在大規(guī)模復雜電路中)以及適配模型和算法等方面存在不足,限制了其商業(yè)化進程。
為此,曦智科技提出的PACE采用混合架構(gòu)(首次對外公開),將光子集成電路(PIC)和電子集成電路(EIC)集成在一個系統(tǒng)級封裝(SiP)中。
△PACE系統(tǒng)部署
PIC 負責執(zhí)行光矩陣向量乘法(oMAC)操作,EIC則處理控制、迭代邏輯、數(shù)據(jù)輸入輸出、存儲以及時鐘控制等功能。
這種架構(gòu)設計充分發(fā)揮了光子計算在速度和低延遲方面的優(yōu)勢,以及電子計算在邏輯處理和存儲方面的長處。
在PIC中,團隊設計了1×64光學數(shù)據(jù)模塊和64×64權(quán)重模塊執(zhí)行oMAC操作。
光信號通過高性能光柵耦合器從外部激光陣列耦合進入電路,經(jīng)過向量調(diào)制器陣列和權(quán)重調(diào)制器模塊進行調(diào)制,最后在光電探測器陣列進行信號轉(zhuǎn)換和合并。
EIC基于28-nm商業(yè)CMOS技術(shù)設計,PIC則是基于65-nm硅光子技術(shù)構(gòu)建,單個芯片集成了超過16000個光子組件,實現(xiàn)了高度集成。
這種混合架構(gòu)充分發(fā)揮了光計算的并行優(yōu)勢:光信號在波導中傳輸時天然完成乘加運算(oMAC),而電子電路則處理邏輯控制與數(shù)據(jù)存儲。
實驗數(shù)據(jù)顯示,64×64矩陣運算延遲僅3納秒,比傳統(tǒng)GPU快500倍。
除此之外,研究團隊創(chuàng)造性地將光學矩陣運算應用于組合優(yōu)化問題。
通過設計”噪聲驅(qū)動遞歸算法”,PACE系統(tǒng)能夠高效求解伊辛模型:
在求解63節(jié)點Max-cut問題時,系統(tǒng)經(jīng)過平均537次迭代(耗時2.7μs)即可達到92.7%的收斂率,相比NVIDIA A10 GPU提速295倍。
更引人注目的是”圖像搜索”演示,系統(tǒng)能從隨機初始狀態(tài)收斂到預設的”貓”圖像目標。
Nature審稿人對曦智科技團隊在光子計算工程化方面作出的努力給予了高度肯定:
在光子計算領(lǐng)域,通常會通過小規(guī)模的演示對大規(guī)模系統(tǒng)性能進行樂觀推斷,但本文中的數(shù)據(jù)均來自整個PACE計算系統(tǒng)的實測性能,作者們工程化地實現(xiàn)了一個超大規(guī)模光子矩陣計算系統(tǒng),可謂“壯舉”。
還全球首發(fā)了新一代光電計算卡
就在前不久的3月25日,曦智科技還正式推出全新一代光電混合計算卡 ——曦智天樞。
曦智天樞深度融合了光芯片與電芯片的優(yōu)勢,采用先進的3D封裝技術(shù),是一款高度可編程的光電混合計算卡。
與前代產(chǎn)品相比,其在光電集成度、光子矩陣規(guī)模、計算精度及可編程性等方面均實現(xiàn)了顯著提升。
它不僅支持科學計算(如伊辛算法),還增強了對ResNet50等商業(yè)算法的適配性,進一步拓寬了應用場景。
曦智天樞采用非相干架構(gòu)設計,具備出色的抗干擾能力和高計算精度。
其核心處理器由光學處理單元(OPU)和電學專用集成電路(ASIC)組成,通過3D先進封裝技術(shù)實現(xiàn)協(xié)同工作,主頻速率達1GHz,輸出精度為8bit。
光芯片面積提升至600平方毫米,器件數(shù)量超過四萬個,集成度大幅提高。
此外,其最大支持128x128矩陣規(guī)模,運算能力和靈活性均得到顯著增強。用戶可通過API自由配置計算矩陣系數(shù),實現(xiàn)更高效的優(yōu)化與適配。
在軟件方面,產(chǎn)品搭載了曦智光電混合計算軟件棧,支持主流框架如PyTorch和ONNX,用戶可通過曦智編譯器靈活構(gòu)建高效的應用模型。
不僅如此,平臺還支持用戶自定義算子,進一步擴展了算法開發(fā)的靈活性。
對此,沈亦晨博士表示:
曦智天樞首次實現(xiàn)了光電混合計算在復雜商業(yè)化模型中的應用,是曦智科技光電混合算力技術(shù)在產(chǎn)品化和商業(yè)化進程中的重要突破。
我們堅信,光電混合將會為人工智能、大語言模型、智能制造等領(lǐng)域帶來算力革新。
光+電,會是未來的答案。