成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

FP8模型不再挑卡!DeepSeek推理成本減半速度翻番,清華團隊開源「赤兔」推理引擎

人工智能 新聞
「國產大模型 + 國產引擎 + 國產芯片」的完整技術閉環正在加速形成。

隨著 DeepSeek 引燃市場對于大模型私有化部署的熱情,模型部署的效率與成本成為企業 AI 落地的關鍵瓶頸。

今天,清華系科創企業清程極智清華大學翟季冬教授團隊聯合宣布開源大模型推理引擎「赤兔」(Chitu),率先實現了非 H 卡設備(英偉達 Hopper 架構之前的 GPU 卡及各類國產卡)運行原生 FP8 模型的突破

在 A800 集群上的實測數據顯示,用赤兔引擎部署 DeepSeek-671B 滿血版推理服務,相比于 vLLM 部署方案,不僅使用的 GPU 數量減少了 50%,而且輸出速度還提升了 3.15 倍

圖片

赤兔引擎代碼已發布至 GitHub 開源社區:

赤兔 (Chitu) 開源:

國產大模型基礎設施又一里程碑

當前,擁有完整自主可控的 AI 技術棧已成為國家戰略性需求。DeepSeek、QwQ 等優秀的國產開源大模型正在重塑全球科技產業格局,但在大模型推理部署領域,業界仍高度依賴國外開源工具。

赤兔引擎的開源為業界提供了國產開源新選擇,也意味著「國產大模型 + 國產引擎 + 國產芯片」的完整技術閉環正在加速形成

「我們看到國內大模型領域取得了顯著進步,但在基礎設施層面,尤其是推理引擎這一核心環節仍缺乏生產級開源產品。」清程極智 CEO 湯雄超表示,「開源赤兔引擎是我們助力國內 AI 生態建設的重要一步。」

作為清華大學高性能計算研究所所長,翟季冬教授長期致力于高性能計算與系統軟件優化研究。翟教授指出:「赤兔引擎凝結了團隊多年的并行計算編譯優化技術積累,目標是建立一個真正適合國內多元算力環境的高性能推理引擎,能夠彌合先進模型與多樣化硬件之間的差距,為中國大模型的產業落地提供關鍵支撐。」

本次開源的版本特別聚焦于當前市場最迫切的需求 —— 即實現 DeepSeek FP8 精度模型在存量英偉達 GPU 上的無損且高效部署。團隊還透露,針對多款國產芯片特別優化的版本也將相繼對外開源。這一突破不僅降低了大模型落地門檻,也為國產 AI 算力的發展帶來了新的契機。

赤兔引擎核心優勢:

全場景性能優化與架構適應性

隨著 DeepSeek V3 和 R1 等新一代模型采用 FP8 混合精度訓練并發布,企業面臨新的部署挑戰。這些 FP8 模型針對 NVIDIA Hopper 架構(H100/H200)深度定制,在其他硬件上部署時(包括 NVIDIA 其他架構 GPU 和國產芯片)需要進行額外的適配。

「最先進的模型與最難獲取的硬件綁定,這是當前企業大模型落地的最大痛點之一」湯雄超表示。隨著更新一代模型和芯片往 FP4 等新型數據精度方向的發展,這種代際效應將愈發顯著。

另一個挑戰是現有開源推理引擎對多元算力環境的支持不足。當前,vLLM 等主流引擎主要針對 NVIDIA 最新架構優化,對國產芯片或較老款 GPU 的適配并不理想。在國內企業私有化部署場景中,NVIDIA 的 Ampere 系列 GPU、國產芯片等多元算力占據了相當比例,這些場景亟需更加靈活的解決方案。

赤兔從一開始就定位于「生產級大模型推理引擎」,并且充分考慮了企業 AI 落地從小規模試驗到大規模部署的漸進式特點,專注于提供以下重要特性:

  • 多元算力適配:不僅支持 NVIDIA 最新旗艦到舊款的多種型號,也為國產芯片提供優化支持。
  • 全場景可伸縮:從純 CPU 部署、單 GPU 部署到大規模集群部署,赤兔引擎提供可擴展的解決方案。
  • 長期穩定運行:可應用于實際生產環境,穩定性足以承載并發業務流量。

在性能優化方面,赤兔的設計理念是「對癥下藥」,支持「低延遲優化」、「高吞吐優化」和「小顯存優化」,可以根據不同場景需求,在不同硬件配置和系統環境下,針對不同負載的特性,提供相應的最優解決方案。在實際部署中,這意味著赤兔引擎可以根據系統資源狀況,在 GPU 利用率、內存效率和網絡傳輸之間尋找最佳平衡點。

圖片

本次開源的技術突破是實現非 H 卡設備原生運行 DeepSeek FP8 精度模型。「我們沒有走簡單的量化路線,而是通過在算子內部高效處理 FP8 數據,確保模型推理質量不受任何影響。」湯雄超表示:「具體來說,我們對 GeMM、MoE 等一系列關鍵算子進行了指令級的優化,實現了 FP8 數據的原生處理能力。」

這種技術實現的難點在于需要深入理解不同硬件架構的指令集特性,以及 FP8 與其他精度格式之間的數學等效關系,結合硬件特性分析并優化。得益于團隊在系統軟件人才方面的積累,才能夠在較短時間內實現這一突破。傳統上為每種芯片架構人工編寫優化代碼的工作量巨大,而團隊所具備的智能編譯技術有助于加速高性能算子的開發過程。

在 A800 集群上的實測結果表明,與 vLLM 相比,赤兔引擎實現 DeepSeek-671B 滿血版推理所需 GPU 數量減少 50%;盡管只用了一半的算力,但推理速度卻達到其 3.15 倍。這意味著企業可以用一半的硬件資源獲得更高的推理性能,極大降低了部署門檻和運營成本。

「部署大模型的最低算力成本是一個時常被忽視但極其重要的指標。」清程團隊強調,顯著降低推理成本對推廣 AI 應用至關重要,赤兔推理引擎在設計之初就將降低用戶的算力成本納入核心考量。

開源共建

為國產芯片「搶時間」

赤兔推理引擎的開源標志著清程極智的業務發展進入新的階段。清程極智在持續提供企業級軟件部署運維服務和全套人工智能解決方案的同時,將把更多實際業務中的經驗通過開源的方式回饋社區。

「目前英偉達 GPU 在大模型推理市場占據主流地位,未來幾年可能出現國外 AI 芯片和國內 AI 芯片百花齊放的態勢。」湯雄超分析指出:「我們希望赤兔引擎成為連接多元算力與大模型應用的橋梁,同時通過推理一體機產品為企業提供端到端的大模型部署解決方案。」

清程極智的推理一體機產品基于赤兔引擎,適配多種硬件和模型,能夠為企業提供開箱即用的私有化部署方案,并配套專業的運維與優化服務。

對于國產 AI 基礎設施而言,赤兔引擎的開源有助于彌合國產芯片與國際先進芯片之間的「時間差」—— 當新模型架構和新數據類型出現時,赤兔引擎可以幫助國產芯片快速適配。

其次,開源引擎減輕了芯片廠商的軟件開發負擔。芯片廠商可以專注于硬件創新,而不必每家都重復開發完整的軟件棧。翟季冬教授表示,「我們目前與多家國產芯片廠商進行合作,各方可直接向赤兔項目貢獻代碼,共同建設一個更強大的開源生態。」

「開源就是做給大家用,用了才知道好不好。我們把代碼放到 GitHub 上,有問題提 issue,有想法提 PR,一起把它做得更好。」湯雄超說。

「無論用什么卡,赤兔都是高性價比的選擇。」

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-07 09:57:01

2025-04-21 09:07:00

2025-02-12 12:45:59

2025-02-24 10:07:04

2023-05-30 14:17:00

模型推理

2025-05-27 15:40:34

模型AI訓練

2025-06-11 14:39:50

AILLMMistral

2020-10-24 07:30:05

開源字節跳動模型

2025-02-26 14:51:00

2025-02-19 15:17:24

2024-01-08 12:51:34

AI數據

2025-02-12 09:20:12

2025-02-19 15:01:09

2024-10-21 12:30:52

2024-01-26 13:18:00

AI訓練

2025-03-11 09:20:00

2018-12-06 10:07:49

微軟機器學習開源

2025-04-14 00:10:00

人工智能AIAI 模型

2025-04-02 09:00:00

模型開源AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区av | 午夜爱爱毛片xxxx视频免费看 | 国产一区二区在线免费观看 | 国产一区二区精品在线观看 | 日本在线黄色 | 国产午夜精品一区二区三区嫩草 | 成人在线不卡 | av在线成人 | 日韩久久成人 | 国产精品永久 | 中文字幕一区二区在线观看 | 亚洲午夜av久久乱码 | 亚洲a视 | 最新日韩在线视频 | 在线色网 | 国产女人与拘做视频免费 | 青青艹在线视频 | 亚洲精品日韩欧美 | 国产日韩一区二区 | 国产精品一区二区av | 亚洲一区二区中文字幕 | 久久99精品国产 | 精品国产久 | 久久黄色网 | 99久久免费观看 | 亚洲精品成人av久久 | 婷婷久久综合 | 亚洲精品在线免费观看视频 | 成人国产精品久久 | 久久精品电影 | 国产精品视频观看 | 羞羞视频网站在线观看 | 又爽又黄axxx片免费观看 | 欧美一区二区三区国产精品 | 日韩精品在线看 | 91天堂网| 亚洲午夜av久久乱码 | 国产精品美女久久久久久不卡 | 国产精品日韩欧美一区二区三区 | 午夜网站视频 | 成人不卡 |