成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AMD跑DeepSeek性能超H200!128并發Token間延遲不超50ms,吞吐量達H200五倍

人工智能 新聞
AITER可以用來加速GPU訓練和推理,AMD副總裁Emad Barsoum直接喊出了AITER is all you need。

DeepSeek-R1掀起新一輪購卡潮的同時,AMD的含金量也上升了。圖片

在AMD的MI300X上跑FP8滿血R1,性能全面超越了英偉達H200——

相同延遲下吞吐量最高可達H200的5倍,相同并發下則比H200高出75%。

圖片

這個結果,一方面歸功于SGLang框架,另一方面則是得益于AMD新優化的AI內核庫AITER。

AITER可以用來加速GPU訓練和推理,AMD副總裁Emad Barsoum直接喊出了AITER is all you need

圖片

還有網友表示,英偉達CUDA的護城河要終結了

圖片

之前著名黑客George Hotz也曾表示自己非常看好AMD,認為只要有好的軟件MI300X表現就能超越H100。

結果MI300X超額實現了George的期待,直接把H200給超了。

圖片

吞吐翻倍、延遲更低

AMD的測試結果顯示,MI300X在延遲相似的情況下實現了H200五倍的吞吐量,超過了每秒7k Tokens。

圖片

如果固定并發數量,MI300X相同并發下的吞吐量比H200高75%,延遲降低 60%。

如果需要Token間延遲不超過50毫秒,一個H200節點可以處理16個并發請求,MI300X節點則可以處理128個

圖片

除了AMD自己,也有第三方對H100和MI300X進行了對比測試。

結果除了首個Token延遲出現了一些不穩定之外,其余的速度和延遲指標都是MI300X全面超過了H100。

圖片

看到MI300X的表現,有人拿出了老黃經典的那句“買的越多省的越多”,表示現在這句話該讓AMD來說了。圖片

圖片

那么,在這些成績的背后,AMD都用了那些技術呢?

SGLang框架+AMD張量引擎

軟件框架層面,R1在MI300X上取得優異表現的關鍵,是SGLang框架

SGLang是一個開源大模型推理框架,是開源社區協作的一項成果,發起者是LMSYS,也就是搞大模型競技場的那個組織。

SGLang在GitHub上擁有超過1.2萬星標,并且不論AMD還是隔壁英偉達,以及馬斯克的xAI,都非常青睞這個框架,此外AMD還是SGLang的主要貢獻者之一。

圖片

在稍早一些的測試當中,使用SGLang在MI300X上運行DeepSeek-R1,僅過了兩周就相比于day 0時性能提升到了4倍,吞吐量達到了每秒5921 Tokens。

圖片

前面提到的第三方,也在MI300X上分別用SGLang和vLLM進行了測試,結果SGLang完勝。

圖片

實際上,SGLang一直是DeepSeek模型的一個最佳拍檔,不僅對于AMD,在英偉達H200上,也能帶來類似的性能提升。

圖片

而在硬件層面,MI300X高效運行R1的關鍵,是AMD為ROCm(可以理解為AMD版CUDA)打造的AI張量引擎AITER

AITER是一個包含大量高性能AI算子的集中式存儲庫,也是一個統一平臺,可以輕松找到優化的算子并將其集成到現有框架中。

AITER的基礎架構建立在多種底層技術之上,包括 Triton、CK(計算內核)、ASM(匯編)和 HIP(異構可移植性接口)。

它支持各種計算任務,例如推理工作負載、訓練內核、GEMM(通用矩陣乘法)運算和通信內核。

圖片

它可以讓GEMM的性能提升2倍、MoE性能提升3倍、MLA解碼性能提升17倍、MHA預填充性能提升14倍。

開啟AITER后,MI300X上DeepSeek-V3的吞吐量是開啟前的兩倍多。

圖片

除了框架和硬件的適配,AMD還進行了超參數調整

AMD發現,當運行具有大量線程(例如128個或更多)的程序時, 由于預填充吞吐量緩慢,帶來了系統的性能瓶頸。

于是AMD提高了chunked_prefill_size參數的大小,用更高的內存占用換取了預填充過程的加速。

不過考慮到內存容量大本就是MI300X的一大特色,這種選擇也不失為一種更優的結果。

圖片

那么,你覺得這次AMD是不是又Yes了呢?

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-11-14 07:37:21

芯片英偉達

2023-11-29 10:15:12

AI芯片亞馬遜英偉達

2024-04-25 13:09:10

AI模型

2023-11-14 08:59:25

英偉達AI

2025-02-27 09:09:45

2023-11-14 13:39:57

2024-06-26 13:15:40

2025-05-09 08:55:00

2023-12-01 14:36:33

模型數據

2025-05-09 02:00:00

代碼接口吞吐量

2024-12-13 13:58:53

2024-09-05 13:30:00

2024-12-05 10:18:48

2022-05-26 15:17:54

訓練模型

2011-05-25 11:16:40

CrayXK6級計算機

2024-05-16 11:51:44

前端性能優化JavaScript

2025-06-05 03:00:00

Spring異步接口

2022-12-08 09:47:29

2022-09-15 08:10:18

多線程場景QPS

2020-06-08 15:01:55

數據中心網絡架構帶寬
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久99精品免费观看 | 欧美日韩精品 | 91精品在线播放 | 亚洲国产中文字幕 | 国产福利在线播放麻豆 | 欧美日韩一区二区三区不卡视频 | 久久精品av | 91视频一区| 亚洲精品一区二区在线观看 | www.久久| 老牛嫩草一区二区三区av | 日韩视频二区 | 99精品国自产在线观看 | 成人免费一区二区三区牛牛 | 国产精品久久久久久久久久 | 狠狠操狠狠干 | 奇米四色影视 | 一区二区三区国产好的精 | 国产欧美精品一区二区 | h视频在线观看免费 | 99re6在线视频精品免费 | 亚洲精品乱码 | 日韩午夜电影在线观看 | 欧美日韩黄色一级片 | 亚洲国产一区二区视频 | 国产一区二区免费在线 | 美女视频一区二区三区 | 激情 一区| 亚洲精品免费看 | 在线视频一区二区 | 久草欧美 | 一区二区在线不卡 | 国产一级电影在线 | 久久精品视频在线播放 | 欧美精品综合 | 久久综合九九 | 日本高清不卡视频 | 午夜精品一区二区三区免费视频 | 在线观看黄色大片 | 亚洲精品一区二区三区丝袜 | 日本天天色 |