禁售陰影之下,國產GPGPU是否有望補齊缺口?
今年年初,ChatGPT猶如一顆火種,激發了AI應用的發展動力,AI產業進入發展的快車道。國內的AI產業自然也乘勢而起,僅半年光景國內就涌現出近百款AI大模型產品,由此進入“百模大戰”的競爭格局。
訓練大模型需要以算力為基礎,全球AI公司對NVIDIA 芯片追捧至極,GPU有價無市。近期新聞,NVIDIA H100已無存貨,就算現在訂購,也要等2024年Q1甚至Q2才能用上。據傳聞,百度、字節、阿里、騰訊等大型科技公司也向NVIDIA下了總計50億美元的A800等芯片訂單。
只不過有人企圖對國內AI大模型發展加以干涉。美國《華爾街日報》透露,由于擔心中國可能使用NVIDIA 和其他公司的人工智能芯片“進行武器開發和黑客攻擊”,美國政府考慮加碼計算芯片領域的制裁,限制NVIDIA公司向中國出口A800、H800芯片,一時間讓處于快速發展中國AI產業,又一次籠罩于禁售陰影之下。
難以替代的GPGPU架構芯片
從美國對國內算力芯片的一而再,再而三地限制中,可以看到美國對中國AI產業發展的忌憚。近年來隨著數字經濟的蓬勃發展,國內在推進算力基礎設施建設取得積極成效。據工信部統計,目前我國算力總規模居全球第二,保持30%左右的年增長率,而且新增算力設施中智能算力占比過半。這其中作為算力載體的AI計算芯片,其地位自然無比重要。
目前全球AI計算芯片主要分為GPGPU、ASIC、FPGA三種架構。而被限制的A800和H800芯片就屬于GPGPU架構芯片。GPGPU架構也是AI加速芯片市場的主流,占據了90%的市場份額。
GPGPU從GPU發展而來,是GPU去掉圖形處理能力,提升并行計算能力之后的產物。GPGPU是如何成為最適合AI計算的芯片呢?
對比CPU和GPU,結構上的差異決定了CPU和GPU功能上的區別。由于CPU在控制和存儲的能力上比較強,因此能進行比較復雜的計算,不過可以同時執行的線程很少。而GPU則相反,大量的計算單元讓它可以同時執行多線程的任務,但每一個任務都比較簡單。
打個比方,如果CPU是一個懂高等數學的大學生,概率、微積分全都會做,但讓他做一萬道四則運算數學題,還是要花費大量的時間;而GPU好像是一萬名只懂得四則運算的小學生,雖然不會函數、代數等高級知識,但是遇到一萬道四則運算兩秒就能做完。
在AI神經算法成熟后,業內發現GPU的功能特性很適合進行AI訓練,因為在深度學習模型中,最主要的運算就是矩陣運算和卷積,而這些運算從根本上都可以分解為簡單的加法和乘法。如此挖掘出了GPU在AI領域的應用空間。2007年,英偉達提出了GPGPU,即通用GPU架構,將原本專用于圖形處理的GPU改造成了更適合AI運算的GPGPU。
其實AI計算芯片除了GPGPU架構,還有ASIC、FPGA等架構。只不過ASIC、FPGA芯片是結合某些計算場景需求的定制化產品,通用性不強。
GPGPU研發難度高,國產短板待補齊
在美國限制出口、國內大模型急需GPU或GPGPU的時候,國內真正能做GPGPU的廠家卻很少。因為GPGPU芯片研發難度,比其他類型的AI芯片要高出很多。
有業內人士分析過,GPGPU 芯片的團隊大概需要1000 人左右,至少也要做兩年才能做出一顆芯片,這還只是推理芯片而已。如果要做大模型訓推一體的大芯片,那么至少 3 年才能把一顆芯片做出來。這意味著,如果有國內廠商能趕上今年大模型風潮,至少需要從2020年就開始布局研發設計。
并且GPGPU研發出來之后,決定其性能發揮上下限的,不止是架構設計優劣、制造工藝先進與否等條件,還需要有軟件生態支持,還需要售后團隊結合大模型情況調優產品等等。
NVIDIA之所以能稱霸AI芯片領域,在于其結合GPGPU架構開發了CUDA軟件平臺,允許開發者使用類C語言編寫GPU的并行計算代碼,并且提供了大量的庫函數和工具來幫助優化GPU計算。NVIDIA運營CUDA已經十余年時間,軟件生態才是NVIDIA真正的護城河。
國內AI芯片面對NVIDIA先發優勢,如何把握住AI大模型帶來的GPGPU黃金機遇?
國產GPGPU殺出幾匹黑馬
當前國內AI芯片主要廠商包括華為、寒武紀、海光信息、遂原、壁仞、天數智芯等,此外龍芯也在布局。其中,發力GPGPU芯片的包括海光、壁仞科技、龍芯等等。
海光GPGPU架構芯片深算一號在2018年啟動研發,于去年發布。據了解,海光深算一號性能優異,對比NVIDIA A100及 AMD MI100發現,在典型應用場景下,深算一號指標已經達到國際上同類型高端產品的水平。并且深算一號最大亮點在于,支持全部計算精度,在國產GPGPU中具備唯一性。在生態方面,海光深算一號可兼容類CUDA環境,對于AI開發者無需復雜適配,即可遷移到海光平臺。
如此以來,在禁售陰影下,海光GPGPU產品可作為國外芯片最好平替。據海光披露,截止今年GPGPU產品已量產商業化應用,規模達幾十萬片,應用領域涵蓋互聯網、能源等行業。
壁仞科技成立于2019年,在2022年發布了首款GPGPU芯片BR100系列,性能方面超越NVIDIA A100,今年發力目標為量產上市。但業內人士認為,對于國內初創GPGPU公司而言,軟件生態更為重要。目前國內的初創公司雖然在細分領域上有一定的落地,而真正在大模型訓練上能有實際應用的幾乎沒有。
而龍芯暫無產品發布,目前進展為已經完成相關IP的設計,正在驗證優化過程中,第一個集成自研GPGPU核的SOC芯片計劃于2024年Q1流片。從流片到量產,如果按最快6-12個月來算,龍芯的GPGPU產品至少也要在2024年Q3以后才能發布,量產估計需要在2025年了。
總體而言,國產GPGPU邁出從0到1的第一步是最主要的。禁售危機中蘊藏著機遇,哪怕作為后來者,在國內如此大的消費市場支撐下,也將有追趕上NVIDIA的可能。