成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

淺談國產化AI芯片模型部署實踐

發布于 2025-2-28 13:08

瀏覽

0收藏

國產化AI芯片的發展已經成為國內信息技術產業的一個重要領域，它的發展始于對高性能計算需求的崛起，尤其是在人工智能和大數據領域，國內的科研機構和高新技術企業開始投入大量資源用于AI芯片的研發，以滿足國內應用的需求。并且隨著中國在各個高新領域的不斷發力與國外AI芯片技術近年來不斷加深的制裁，各個行業的企業也開始合作，以共同推動AI芯片的研發和應用，包括通信、云計算、智能制造、自動駕駛等領域。國內市場對AI芯片的需求迅速增長，也促使了本土芯片的研發和生產。以上種種皆表明使用國產化AI芯片，推動國產化芯片的繁榮發展具有極其重要的現實含義。

一、國產化AI芯片模型部署的重要意義

人工智能的發展主要依賴兩個領域的創新和演進：一是模仿人腦建立起來的數學模型和算法，其次是半導體集成電路AI芯片。AI的發展一直伴隨著半導體芯片的演進過程，AI芯片則是AI發展的底層基石。

全球AI芯片市場主要由海外廠商占據壟斷地位，但國產廠商也在加速布局。國內市場中，景嘉微在圖形渲染GPU領域持續深耕，另外天數智芯、壁仞科技、登臨科技等一批主打AI及高性能計算的GPGPU初創企業正加速涌入。在GPGPU方面，目前國內廠商與Nvidia在GPGPU上仍存在較大差距。制程方面，目前Nvidia已率先到達4nm，國內廠商多集中在7nm；算力方面，國內廠商大多不支持雙精度（FP64）計算，在單精度（FP32）及定點計算（INT8）方面與國外中端產品持平，天數智芯、壁仞科技的AI芯片產品在單精度性能上超過Nvidia A100；接口方面，壁仞科技與Nvidia率先使用PCle5.0，其余廠商多集中在PCle4.0；生態方面，國內企業多采用OpenCL進行自主生態建設，與Nvidia CUDA的成熟生態相比，差距較為明顯。對于大模型訓練而言，目前能夠提供云端訓練和推理加速芯片的獨立廠商及產品則有壁仞科技BR100系列、高通Cloud AI 100、墨芯智能英騰處理器、燧原科技邃思2.0/2.5、瀚博半導體SV100、寒武紀思元370、鯤云科技CAISA數據流推理AI芯片等。

基于上述現狀以及國外技術的制裁等原因，在國產化AI芯片上進行模型部署則具有多方面的重要理由。首先，在AI應用中，許多敏感數據和任務涉及國家安全。依賴國際廠商的芯片可能會暴露國家對外部供應鏈的依賴性，從而帶來潛在的安全風險而使用國產AI芯片可以更好地掌握技術控制權，確保國家的安全和主權。其次，發展國產AI芯片有助于提高技術自主性。國內企業能夠掌握AI芯片的設計、制造和優化，而不必依賴外國技術。這有助于加速技術創新，提高國家的核心競爭力。并且國產AI芯片的發展將帶動整個創新生態系統的建設，這包括芯片設計、軟件開發、應用部署等各個環節，將促進國內創業公司的發展，推動技術生態系統的繁榮。

二、使用華為昇騰310平臺進行模型部署

ONNX是一種用于表示和交換深度學習模型的開放標準。它的主要目的是解決不同深度學習框架之間的互操作性問題，使開發者能夠輕松地在不同框架之間共享和部署訓練好的模型。本文以英偉達平臺訓練導出的ONNX模型為出發點，主要進行如下幾個步驟完成在華為昇騰310平臺上的模型部署

淺談國產化AI芯片模型部署實踐-AI.x社區

▲ 華為昇騰310芯片主要參數一覽

1.設計部署測試流程

由于模型要兼容華為底層硬件，所以需要將原始的ONNX模型轉換為華為硬件兼容的OM模型，然后對轉換后模型的優化適配再進行部署。整體的模型的部署測試流程如下圖：

淺談國產化AI芯片模型部署實踐-AI.x社區

2.對ONNX模型進行圖重構與優化

對模型進行改圖優化需要安裝auto_optimizer工具，需提前安裝auto_optimizer，安裝教程參考華為昇騰官方倉庫。對模型優化步驟參考如下：

查看當前AI芯片版本支持的可優化知識庫：python3 -m auto_optimizer list
評估當前ONNX模型在昇騰平臺可被優化的知識庫：python3 -m auto_optimizer evaluate model.onnx
對輸入的ONNX模型進行自動改圖優化生成新的優化后的ONNX模型：python3 -m auto_optimizer optimize model.onnx model_new.onnx

3.將ONNX模型轉換為昇騰平臺支持的OM模型

在將原始的ONNX模型進行官方的改圖優化后，進一步將優化后的ONNX模型轉換成昇騰平臺支持的OM模型。需要提前安裝華為模型轉換工具ATC，安裝教程參加華為昇騰官方倉庫。步驟如下：

查看當前芯片型號：npu-smi info （查看芯片型號用于后續ATC轉換工具中soc_version參數的設置，該參數用于適配轉換平臺的芯片型號。）
激活ATC工具環境：source /usr/local/Ascend/ascend-toolkit/set_env.sh
生成動態維度模型：atc --model=model_new.onnx --framework=5 --input_format=ND --input_shape="input_ids:1,-1;attention_mask:1,-1" --dynamic_dims="256,256;512,512" --output=model_fp16_out_new --soc_version=Ascend310 (具體參數含義可以參考官方文檔)

4.使用華為ais_bench工具進行性能測試

對于轉換后的OM模型，華為官方提供ais_bench用于模型性能的測試和評估，需要提前安裝ais_bench工具，安裝教程參考華為ais_bench官方倉庫。測試步驟如下：

激活ais_bench工具環境：source /usr/local/Ascend/ascend-toolkit/set_env.sh

測試模型推理性能：python3 -m ais_bench --model=model_new.om --dymDims "input_ids:1,512;attention_mask:1,512" --output ./output --outfmt TXT

5.模型測試精度一覽

我們使用FP16格式的命名實體識別模型在昇騰310平臺和英偉達平臺分別部署進行模型的精度測試比較如下：

淺談國產化AI芯片模型部署實踐-AI.x社區

總的來說，較英偉達T4芯片，命名實體識別模型平均F1提高0.39。模型在兩個平臺的推理精度差距較小，在合理接受的范圍內。

淺談國產化AI芯片模型部署實踐-AI.x社區

我們采用計算命名實體識別模型在兩個平臺上的平均單次推理時間作為性能比較的指標，可以看到，由于華為昇騰310對于FP16的性能為8TOPS而英偉達T4在FP16的性能表現為65TOPS，兩者相差較大，導致單次推理時間存在較大的差距。

三、結語

國產化AI芯片的快速發展標志著我國在人工智能領域取得了重大突破，為技術自主創新和國內產業的發展邁出了堅實的一步。通過將AI模型部署到國產AI芯片上，我們不僅提高了技術的自主性，還為未來的創新和發展奠定了堅實的基礎。因此，將深度學習大模型部署在更多的國產化AI芯片上并積極使用國產化AI芯片進行大模型的訓練和推理，將會不斷推動國產化芯片的發展與技術社區的繁榮，具有重要的戰略意義。

參考文獻

[1] tools: Ascend tools - Gitee.com

[2] Ascend/msadvisor - Gitee.com

[3] 昇騰社區-官網丨昇騰萬里讓智能無所不及 (hiascend.com)

[4] OM模型部署至Atlas 300I（Ascend 310）推理卡-云社區-華為云 (huaweicloud.com)

[5] 2022年10大國產AI芯片 - 知乎 (zhihu.com)

[6] 2023年TOP 60 國產AI芯片廠商調研分析報告 - 知乎 (zhihu.com)

[7] 2022國產AI芯片報告之一：10大國產AI芯片-電子工程專輯 (??eet-china.com??)

本文轉載自 ??AI遇見云??，作者：趙行前

標簽

已于2025-2-28 14:13:54修改

贊

收藏

回復

舉報

回復

相關推薦

核桃CMS - 支持涉密系統分級保護、國產化環境

z起點a ? 2478瀏覽 ? 0回復
淺談大模型RAG架構落地的十大挑戰

玄姐聊AGI ? 4086瀏覽 ? 0回復
AI編程輔助 | 基于代碼生成模型的實踐

zhcs333 ? 4090瀏覽 ? 0回復
AI編程輔助 | 基于代碼生成模型的實踐

zhcs333 ? 4250瀏覽 ? 0回復
淺談—領域模型訓練

NLP工作站 ? 2541瀏覽 ? 0回復
淺談視覺Transformer技術

zhcs333 ? 3070瀏覽 ? 0回復
開源閉源爭論不休，淺談大模型開源和閉源

NLP工作站 ? 2366瀏覽 ? 0回復
910B芯片Swift多模態模型分布式訓練實踐

zhcs333 ? 4439瀏覽 ? 0回復
LLaMA-Factory 微調與部署詳細流程：從入門到實踐

AI悠閑區 ? 1.8w瀏覽 ? 0回復
DeepSeek多模態大模型Janus、Janus-Pro模型架構及優化方法淺談

大模型自然語言處理 ? 3518瀏覽 ? 0回復
那就在本地部署更好用 Mac和PC都能可視化

數字化助推器 ? 3405瀏覽 ? 0回復
DeepSeek又開源R1部署最佳實踐！

探索AGI ? 2244瀏覽 ? 0回復
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”?。。?/a>

玄姐聊AGI ? 7279瀏覽 ? 0回復
通過LM Studio本地私有化部署DeepSeek-R1模型，無網絡也能用

鴻花粉H ? 4272瀏覽 ? 0回復
這是有關R2的幾個傳聞：100%國產算力部署！能耗降低25%，多模態模型！

51CTO技術棧 ? 3489瀏覽 ? 0回復
阿里QwQ-32B開源引爆AI效率革命：單卡運行、成本降60倍，國產芯片突圍AGI

墨風如雪小站 ? 3517瀏覽 ? 0回復
M3芯片+Ollama本地部署DeepSeek R1：小白也能玩轉AI推理

zhishan15 ? 2057瀏覽 ? 0回復
Local Deep Researcher：本地化部署的AI研究助手，零門檻開啟智能研究

穿越時空111 ? 1551瀏覽 ? 0回復
黃仁勛緊急訪華背后：AI芯片禁令下，國產算力如何突破重圍？

算家計算 ? 1432瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

揭秘Google A2A協議：原理、應用與未來 2025-04-30 06:10:42發布
融合語言模型的多模態大模型研究 2025-04-08 00:32:18發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：服務器繁忙？動手做：滿血版DeepSeek R1+Agentic RAG 構建聯網搜索智能體（附源碼）

下一篇：身份證識別服務性能優化實踐

社區精華內容

目錄

主站蜘蛛池模板：日本三级电影在线免费观看 | 中文字幕在线视频一区二区三区 | 国产日韩久久久久69影院 | 久久国际精品 | 国产乱码精品1区2区3区 | 久久99精品视频 | 亚洲男人的天堂网站 | 亚洲一区在线播放 | 亚洲视频一区在线播放 | 亚洲视频在线观看免费 | 999久久久国产精品欧美成人h版在线观看 | 亚洲日韩欧美一区二区在线 | 日韩欧美在线视频 | 欧美精品欧美精品系列 | 91久久久久久久久久久久久 | 国产草草视频 | 色婷婷精品 | 色视频在线免费观看 | 东方伊人免费在线观看 | 噜噜噜色网 | 国产高清免费在线 | 欧美日韩在线精品 | 国产精品久久久久久一区二区三区 | 欧美一区二区三区在线播放 | 国产精品99久久久久久久vr | 亚洲免费婷婷 | 天天爱天天操 | 欧美国产中文字幕 | 中文字幕一区二区三区在线观看 | 亚洲成人免费网址 | 欧美13videosex性极品 | 波多野结衣精品 | 亚洲在线一区 | 中文字幕国产 | 国产免费黄网 | 久视频在线 | 婷婷桃色网 | 欧美自拍第一页 | 国产三区在线观看视频 | 日韩一区二区视频 | 免费黄网站在线观看 |