從開放生態到技術破局,昇騰CANN筑實AI時代的創新基座
原創從“百模大戰”到“頭部+垂直”的市場格局,大模型技術的發展經歷了技術競賽、資源整合、生態成熟的深刻轉變。如今,企業已經不再一味地追求超高算力、超大參數模型的構建,而是將重點放到了應用場景的實踐探索上。
在這樣的背景之下,AI開放生態的建設變得尤為關鍵。一方面,開放的生態可以吸引更多的開發者加入進來,更好地推動技術創新,讓技術能夠更快地迭代,大幅提升企業的開發效率;另一方面,開放的生態能夠將企業和開發者匯聚一堂,共同探索AI在不同場景下的應用創新,集眾家智慧于一體,加速AI在不同領域的應用,更快地推動AI的普及。
然而,現階段企業和開發者在構建易用、好用的大模型應用過程中,還將面臨生態碎片化造成的創新壁壘、模型訓練與推理效率低下引發的成本攀升、硬件潛能釋放不足導致的算力浪費三大核心痛點。如何應對?怎么破局?華為昇騰異構計算架構CANN,成為破解AI應用開發和場景化落地挑戰的關鍵密鑰。
華為昇騰計算業務總裁張迪煊
在鯤鵬昇騰開發者大會2025上,華為昇騰計算業務總裁張迪煊揭曉了昇騰CANN的核心能力。作為昇騰AI的核心平臺,昇騰CANN正通過深度開放與原子級創新,構建了全棧開放生態、高能效的算力底座,為中國AI開發者打造了“軟硬協同”的創新引擎,夯實了大模型時代的創新基座。
從開源共建到人才培養,開放生態使能每一位創新者
真正的偉大,從不誕生于孤島。而技術的高度,最終將由生態的廣度與活力來丈量。
在打造硬核技術能力的同時,昇騰CANN正以"使能每一位創新者"為核心理念,通過"基礎層開放+應用層共創"的雙輪驅動模式,為企業和開發者打造易用、好用的開發平臺,全力推動國產AI產業鏈的協同進化,形成了從技術突破到商業轉化的生態閉環。
在基礎層面,昇騰CANN實現了鴻蒙、歐拉、麒麟、紅旗、統信五大國產系統的深度鏈接,為生態伙伴提供靈活高效的硬件定制開發支持。在技術層面,昇騰CANN分層解耦架構在關鍵領域取得了突破性進展。高性能算子庫已使能30余家客戶/伙伴開發260+核心算子,驅動整網性能平均提升超10%;通信算法創新方面,基于pipeline算法、NHR核算法等前沿技術實現通信效率躍升50%+,助力10余家企業突破分布式訓練瓶頸。
除了基礎層面的開放合作與技術層面的創新之外,在應用層,昇騰CANN與企業進行深度合作,共同打造創新性的應用。例如,在用戶比較關注的整圖優化技術方面,昇騰CANN與20+行業領軍企業深度協同,通過創新性的應用調度加速、內存復用等六大優化策略,實現了內存占用壓縮25%、推理性能提升了20%的顯著突破。
另外,在加速引擎創新維度,CANN已經支持硅基流動等10余家AI基礎設施企業打造的差異化解決方案,成功孵化了智能調度引擎、分布式訓練框架等創新套件,構筑起覆蓋模型開發、訓練加速、部署優化的全鏈路技術生態。
除此之外,昇騰CANN還積極與高校進行開放合作,共同推動科研成果的落地。2020年底,由教育部、華為聯合發起了“智能基座”產教融合協同育人基地項目,首批布局了72所高校,將CANN相關知識納入校園課程,通過深化信息技術領域人才培養模式改革和協同創新,著力構建以信息技術領域關鍵核心技術為基礎的產業與人才生態。
目前,昇騰CANN已經與清華大學、北京大學、上海交通大學等頂尖高校合作,打造了卓越中心和孵化中心,針對前沿的創新課題孵化世界級的科研項目,引領AI的創新發展。
大會現場,華南理工大學計算機科學與工程學院教授、博士生導師陸璐教授展示了團隊開發的算子以及參數調優等性能優化的手段。基于昇騰算子模板庫CATLASS,算子開發過程中有大量可以復用、拼裝的開源代碼實現,通過參數修改可以快速調整切分策略,高效實現性能尋優。陸教授指出,只要熟悉昇騰編程平臺,掌握了其體系架構,很多應用就能夠在昇騰平臺中順利地運行起來。通過不斷優化,能夠將性能從50%提升到100%,甚至在某些應用場景下,性能能夠提升200%到500%。在這期間,團隊也參與到了開源模板庫CATLASS的建設,大幅提升開發者的開發效率。
除了與企業和高校的合作之外,昇騰CANN同樣重視個人開發者的培養。天津理工大學電氣工程與自動化學院人工智能專業2022級學生王富平,從2023年開始參加昇騰AI創新大賽,在昇騰CANN異構計算架構等領域進行了研究探索,不但通過大賽學習到了最前沿的技術,收獲了諸多的創新成果,而且成為了天津市首位華為開發者布道師,首屆“求實創新班”成員。
張迪煊在主題演講中表示,目前,華為已經累計培養了40多萬名學昇騰、懂昇騰的學生,很多學生已經進入社會,進入企業,成為推動AI發展的中堅力量。
昇騰CANN與企業、高校科研機構的生態合作,很好地促進了雙方的共同成長,并給產業創造了巨大的商業價值。而且通過創新大賽等形式,實現了對個人開發者的培養,為社會輸送了一大批優秀的創新人才,為中國科技的發展帶來了極其深遠的影響。
根據昇騰官方數據統計,6年來,有超過60萬開發者了解CANN、使用CANN、賦予CANN創新活力。在昇騰CANN持續推進開放,以及產業各方開發者、企業積極參與之下,CANN生態正在快速成長。目前CANN的算子認證開發者已經超過了6000人。
截至目前,基于昇騰NPU+昇騰CANN技術生態所能實現的AI應用性能,已經能夠比肩CUDA,并且在開放的廣度、深度上,都比CUDA更進一步。取得如此輝煌的成績,昇騰CANN僅僅用了6年時間,創造了科技界的一個奇跡。
如今,從Ascend C算子編程語言、AOL算子加速庫、GE圖引擎、HCCL集合通信庫、畢昇編譯器、Runtime運行時到Driver驅動,昇騰CANN正在通過不斷豐富高層、底層組件,進一步充實開發者們的彈藥庫,以全面開放支持基于昇騰的軟硬協同極致創新。
不難發現,在"基礎層開放+應用層共創"的雙輪驅動模式,昇騰CANN不僅重塑了AI算力效能邊界,而且推動了國產AI產業鏈的協同進化,形成從技術突破到商業轉化的生態閉環。目前,昇騰CANN已成為中國開發者生態最活躍、技術迭代最迅猛的AI創新平臺,持續以開放生態與全棧賦能,引領智能算力時代。
構建差異化開放策略,用分層架構賦能AI場景化創新
當用戶需求以天為單位迭代更新,當產品迭代周期從“年”壓縮到“周”,當算法迭代以天為單位,每一分鐘的效率提升都可能轉化為商業戰場的制勝先機。
打造高效的開發機制,不僅是企業內部需要解決的挑戰,更是華為昇騰CANN的使能所在。在去年的昇騰AI開發者峰會,昇騰宣布了深度開放策略,通過構建覆蓋算子開發、系統調優到編譯鏈優化的全場景賦能體系,賦能開發者基于昇騰進行大模型原生創新;7月份,昇騰CANN關鍵的高層組件開放代碼到Gitee社區,客戶和合作伙伴正式拉開了自主創新之路。
為了讓不同技術能力的開發者都能夠簡單、高效地開發創新應用,昇騰CANN通過匹配不同的場景,打造了分層開放的架構,通過算法創新層、系統優化層和編譯生態層三層架構的差異化開放策略,賦能開發者基于場景化的AI應用創新。
在算法創新層,通過開源FlashAttention、Matmul等核心算子及MESH/RING通信算法的最佳實踐代碼庫,使開發者可基于業務場景進行"魔改式"創新。
大會現場,張迪煊以華南理工大學團隊的開發案例進行了詳細介紹。據了解,華南理工大學團隊利用全新發布的CATLASS算子模板庫開發Matmul算子,開發周期從傳統4人周壓縮至2人周,并通過參數動態調優實現20%+性能增益,開創了"開發即優化"的新模式。
在系統優化層,CANN開放190+底層原子接口,實現硬件能力的顆?;尫?。清華大學計圖團隊聯合昇騰研發的MoE專用算子體系,通過調用aclGraph模型調度接口與INT4量化技術,成功將DeepSeek R1模型的推理時延降低50%,驗證了原子能力組合創新的巨大潛力。
在編譯生態層,CANN與Triton框架的深度整合引發開發范式變革:通過開放畢昇編譯器的AscendNPU IR接口,開發者可直接使用Python語法編寫高性能算子,底層硬件差異被完全抽象化。同時提供的編譯層控制接口,使第三方框架能定制化調整數據流編排策略,在智能醫療影像分析等場景中實現編譯效率提升40%。
實際上,實行分層架構是昇騰CANN一直堅持的開放模式,能夠讓開發者針對不同的場景進行需求匹配,實現性能與開發效率的雙重兼顧。豐富的參考樣例能夠很好地匹配場景魔改,實現敏捷開發和高效開發。此外,底層原子級能力支持靈活組合,讓開發者可以更好地挖掘硬件性能。
"三駕馬車"協同創新,核心技術讓AI創新跑出+速度
當MoE架構成為大模型主流,當單日推理Token量突破10萬億,當企業爭相部署千億參數模型——AI產業在狂飆突進的同時,也深陷計算性能、開發效率與生態協同的三重圍城。
眾所周知,硬件是構筑AI算力的基石底座。從硅晶圓上的微觀電路到數據中心里的龐大陣列,硬件架構的持續創新為AI技術提供了強大算力支撐。隨著AI技術的持續突破,模型優化技術從“模型結構創新”延伸到“訓推全流程”的算法創新,利用底層硬件資源,通過在核心技術上的持續突破,昇騰CANN在計算、內存、通信三個維度持續釋放硬件價值,用“三駕馬車”重構AI算力。
在計算層面,針對MoE大模型訓練場景的"卡脖子"難題,CANN創新性推出超級算子MLAPO:通過Vector與Cube計算單元并行化改造,將原本13個串行小算子融合為統一融合大算子,成功將MLA前處理耗時從行業平均109us壓縮至45us,在螞蟻金融風控模型、騰訊廣告推薦系統中實現20%+端到端性能提升,破解了Transformer架構的算力瓶頸。
在內存層面,面對動態shape場景的"內存碎片化"痼疾,CANN研發的多重地址映射技術猶如為內存系統植入"智能中樞":通過物理內存動態切分與虛擬地址智能適配,實現內存碎片的自動化拼接利用,使京東商品搜索、騰訊短視頻推薦等業務場景的內存利用率躍升20%以上,單卡可承載的并發請求量突破行業極限。
在分布式訓練領域,CANN打造的NPUDirect通信算法徹底改寫游戲規則:通過NPU Vector核直控數據傳輸,將傳統RDMA通信所需的3次同步精簡為1次原子操作,使得科大訊飛語音大模型的跨機通信時延驟降90%,中國移動的千卡集群通信效率提升50%,開創了萬卡級分布式訓練的可行性路徑。
值得關注的是,昇騰CANN+昇騰NPU的組合,無論是在效率還是成本方面,都實現了與海外主流算力平臺的快速看齊,在某些領域甚至實現了超越,徹底打破了海外算力平臺獨大的格局。
大會現場,科大訊飛副總裁、AI工程院院長潘青華展示了訊飛和昇騰的合作成果。據介紹,今年3月,訊飛基于昇騰算力率先實現了MoE模型大規??绻濣c并行集群的推理,推理性能提升了3倍。
除此之外,AI Infra的無問芯穹采用了昇騰平臺,并基于昇騰CANN進行深度優化創新,針對大模型推理集群部署中的通信開銷問題進行技術攻關,實現單算子性能提升20%,顯著降低了算力資源的消耗。
可以看出,通過技術上的持續創新,昇騰CANN不僅實現了單點性能的指數級提升,更構建起"芯片級優化-系統級調度-集群級協同"的全棧能力,這也標志著AI算力技術正式邁入"原子級精準調優"的新紀元。
寫在最后:用技術創新+生態開放夯實AI時代的創新基座
從分層開放的技術架構到產學研生態協同創新,再到計算、內存、通信等領域的底層技術突破,昇騰CANN始終堅持著技術創新和開放生態兩手抓的理念,在不斷優化底層技術的同時,以全棧開放的姿態與產學研合作伙伴攜手創新,不斷地為開發者提供好用、易用的產品和解決方案,為企業AI應用創造無限的價值,為AI產業發展提供了新的動力。
展望未來,昇騰CANN將通過不斷豐富高層、底層組件,為開發者們提供更加豐富的彈藥,并通過開放的生態建設,為開發者的AI創新全力賦能。