光子技術加速數據中心AI發展
光子技術(Photonics)在數據中心AI加速中扮演著日益重要的角色。
光學組件的全球市場規模已相當可觀,去年收入達170億美元。歷史上,電信領域(如海底光纜和光纖到戶)主導了需求。然而,如今數據通信領域,尤其是AI驅動的數據中心,已占據市場超60%的份額。這一轉變正在加速光學技術的增長。
為匹配AI計算集群(包括GPU和定制加速器在內的xPU)不斷提升的性能,光學傳輸速率正迅速提高。
圖1:光學組件市場歷史與預測。來源:OMDIA/OFC
據J.P. Morgan數據,最大的光學組件供應商為Coherent和Innolight(各占20%市場份額),其次是Broadcom,占10%。眾多中小供應商也在為這一擴展生態系統貢獻力量。
由LLM驅動的AI數據中心增長
LLM正推動AI工作負載呈指數級增長。隨著AI能力提升和成本降低,需求激增。LLM規模的擴大需要龐大的xPU集群。互連需求增長速度超過xPU數量本身,迫切需要高帶寬、低延遲的網絡解決方案。
Broadcom首席執行官Hock Tan指出,數據中心網絡成本正不斷攀升,從目前的資本支出的5%-10%預計到2030年將升至15%-20%。
圖2:AI集群規模激增。來源:Dell'Oro Group/OFC
例如,Oracle云基礎設施(OCI)部署了包含131,000個Nvidia Blackwell GPU的集群,通過NVLink72實現互連。
圖3:Oracle云基礎設施面向生成式AI的超大規模集群產品。來源:Oracle/OFC
Scale-Out與Scale-Up網絡
在AI數據中心,互連主要分為兩種類型:
- Scale-Out:光學鏈路連接機架和行之間的交換機。
- Scale-Up:電信號鏈路連接少量機架內及機架間的GPU。
圖4:數據中心中的光學技術。來源:Coherent/OFC
雖然Scale-Out網絡已采用光學技術,但Scale-Up網絡向光子技術的過渡正在進行,尚未完全實現。
Scale-Out網絡的光學進展
光子技術在Scale-Out架構中占據核心地位。目前,可插拔光學收發器支持網卡(NIC)與交換機之間數十米的數據傳輸。隨著數據速率的提升,這些解決方案在功耗和性能方面面臨越來越大的限制。
Oracle的131000 GPU網絡在其Scale-Out網絡的三個層級均使用光學鏈路。然而,傳統可插拔光學器件功耗較高。
圖5:Oracle光學集群網絡架構。來源:Oracle/OFC
圖6:功耗與TCO仍是主要關注點。來源:Meta/OFC
隨著Scale-Out網絡數據速率的增加,以滿足LLM增長和吞吐量需求,網絡功耗已超過加速器機架的功耗。據Nvidia數據,將可插拔光學器件轉為共封裝光學(Co-Packaged Optics, CPO),可將1.6Tbps鏈路的光學功耗從30W大幅降至9W。
在GTC25大會上,Nvidia推出了首款采用CPO的Scale-Out交換機。功耗的節省使GPU密度提升高達3倍,在相同數據中心功耗范圍內支持更多GPU。
圖7:采用Spectrum-X光子技術實現3.5倍功耗節省。來源:Nvidia/GTC25
可靠性是從銅纜到光學再到CPO過渡中的關鍵考量。AI數據中心的組件規模龐大且增長迅速,類似iPhone的生產節奏。產量和可靠性必須從一開始就極高。谷歌平臺光學總監表示,每日0.004%的鏈路故障率看似不錯,但在100萬個鏈路中,這意味著每天40次鏈路故障。光學解決方案需設計為極低故障率,需在高要求水平下進行測試,并以極大規模樣本驗證,以確保生產擴容成功。
Scale-Up網絡向CPO的路徑
目前,Scale-Up互連仍以銅纜為主。Nvidia的Blackwell架構采用全銅解決方案NVLink72,板卡、交換機和機架背板上可見大量布線。信號頻率現已極高,銅纜束直接連接至GPU,繞過傳統PCB走線。
圖8:Nvidia的路線圖延伸至NVLink576,仍使用銅纜,但不斷提高的數據速率和信號完整性問題最終將需要光學解決方案。來源:Nvidia/GTC
然而,銅纜的局限性日益明顯。Nvidia的路線圖延伸至NVLink576,仍使用銅纜,但不斷提高的數據速率和信號完整性問題最終將需要光學解決方案。
微軟提出了其未來AI加速器對CPO的要求,希望用單一物理層和可配置接口取代現有接口。
圖9:新型互連場景需要統一的接口,具備更嚴格的延遲和可靠性要求。來源:Microsoft/OFC
這一新統一接口需兼具“兩全其美”——綜合規格優于其替代的傳統接口。這對CPO提出了更高挑戰,但也擴大了市場。
圖10:新型統一接口需優于其替代的傳統接口。來源:Microsoft/OFC
Nvidia也提出了其AI加速器對CPO集成的要求:
圖11:Nvidia的CPO要求。來源:Nvidia/OFC
這些要求具有挑戰性但可實現。Needham & Company建議,Scale-Up網絡向CPO的初步轉變將在單一GPU域內的機架間互連中發生,而機架內連接暫時仍以銅纜為主。
100%的AI數據中心芯片由臺積電(TSMC)制造。臺積電深度參與所有主要AI玩家的技術路線圖,僅開發其主要客戶所需的技術。在4月底的年度技術大會上,臺積電展示了其AI芯片路線圖,包括共封裝光學,表明其已為此做好準備。
市場展望與行業參與者
預計Scale-Up網絡向CPO的過渡將在未來幾年內開始,并在2030年代廣泛取代可插拔光學器件。CPO市場將從目前的零增長至2030年的50億美元。早期進入者如Broadcom、Marvell、Ayar Labs、Celestial AI和Lightmatter,以及激光供應商如Coherent,將從中受益。
圖12:光學技術快速增長,CPO預計于2027-2030年興起。來源:LightCounting/Coherent
光子技術不再僅是AI的使能者,而是其大規模增長不可或缺的基石。到2030年代中期,所有互連都將是光學的,且全部采用CPO。
參考資料:Tate, G. (2025, May 1). Photonics speeds up data center AI. Semiconductor Engineering. Retrieved from https://semiengineering.com/photonics-speeds-up-data-center-ai/
本文轉載自??Andy730??,作者:常華?
