成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一起聊聊面向E級計算的四款高性能處理器

商務辦公
本文主要分析和探討國際上面向 E 級計算的先進高性能處理器的核心運算架構,包括 Fujitsu A64FX、NVIDIA H100、AMD MI250X 和 Intel PonteVecchio 4款高性能處理器,著重關注運算資源組織結構、數據和指令級并行方式、領域專用加速結構 DSA、支持數據類型和算力等方面。

商用高性能計算處理器市場主要被NVIDIA、AMD和Intel3家公司長期占據,在面向E級計算 的 高 性 能 處 理 器 中,AMD 最 新 的Instinct MI250X處理器雙精度浮點運算能力已經高達95.7TFlops,NVIDIA和Intel最新發布的高性能處理器峰值性能也均達到了數十 TFlops。

本文主要分析和探討國際上面向 E 級計算的先進高性能處理器的核心運算架構,包括 Fujitsu A64FX、NVIDIA H100、AMD MI250X 和 Intel PonteVecchio 4款高性能處理器,著重關注運算資源組織結構、數據和指令級并行方式、領域專用加速結構 DSA、支持數據類型和算力等方面,并總結和展望主流高性能處理器的運算架構研究發展現狀和趨勢,以期為國內自主研發面向后 E 級計算的高性能處理器提供技術參考和借鑒。

1、Fujitsu A64FX

Fujitsu A64FX 是由富士通(Fujitsu)在2018年發布的,主要用于構建日本原計劃研發的首臺 E級計算機 “后 京”(POST-K)[6],后 改 名 為 “富 岳”(Fugaku)并于2020年6月發布。目前,“富岳”超算在全球高性能計算機 TOP500榜單中排名第2,集成的 A64FX處理器芯片數量高達158976片,全機峰值性能為0.537212EFlops,Linpack實測性能為0.44201EFlops,效率為82.28%。

圖片

A64FX處理器結構框圖如圖1所示,分成4個處理核心存儲組 CMG(CPU MemoryGroup),每個 CMG 包含13個同構核心、L2Cache和存儲控制器,其中12個核心為計算核心,1個為輔助核心,用于運行操作系統和I/O 操作,全片共52個核心。每個 CMG 集成8GB 容量的 HBM2存儲器,全片總容量為32GB,總帶寬為 1024GB/s。

片上還集成了 PCIe3.016x接口和富士通特有的TofuD互連網絡接口與路由器,這些外接口與4個CMG 通過片上網絡 NoC(NetworkonChip)實現互連和通信。

A64FX 處理器采用臺積電7nm 工藝和 CoWoS封裝實現,集成了87.86億晶體管,最高運行頻率為2.2GHz,峰值性能為3.3792TFlops,功耗為200W。

2、NVIDIA H100

NVIDIA 在 HPC 和 人 工 智 能 AI商用處理器市場占比非常高,一直是圖形處理器 GPU領域的佼佼者。TOP500最新榜單排行前20的超算系統中有11臺采用了 NVIDIA 的 GPU 實現。目前這些超算算力主要由前兩代 GPU 產品 V100和A100提供。

圖片

NVIDIA 于2022年3月發布了面向 HPC 和AI的最新款高性能處理器 H100GPU。該處理器采用 新 一 代 HOPPER 架 構,基 于 上 一 代 GPUA100的 Ampere架構主要進行了如下擴展:

  • (1)集成第4代張量核心(TensorCore);
  • (2)新增動態規劃算法加速指令 DPX;
  • (3)流多處理器 SM內 CUDA核 數 量 翻 倍;
  • (4)與GPC相對應,強化線程塊簇特征;
  • (5)新增 TMA引 擎,增 強 異 步 數 據 傳 輸 功 能;
  • (6)定 制Transformer引 擎,以 加 速 Transformer 模 型 訓練;
  • (7)更新換代 HBM3、PCIe5.0和第4代 NVLink等存儲和外接口。

H100的結 構 框 圖如 圖 2 所 示,全 片 實 際(非 GH100架構滿配)集成了132個 SM,每2個SM 構成一個 TPC(TextureProcessingCluster),9個或8個 TPC構成一個 GPC,全片共8個 GPC。

每個SM 包含128個 FP32(單精度浮點)CUDA核和 4 個 TensorCore,全片共 16896 個 CUDA核,528個 TensorCore。

H100GPU 片上集成了50MB的L2Cache,5個16GB容量的 HBM3,存儲總容量為80GB,總訪存帶 寬 為 3 TB/s。此 外,片 上 還 集 成 了 PCIe 5.0 16x和第 4 代 NVLink 外接口,支 持 與 CPU或 GPU 高速互連。

H100GPU 采 用 臺 積 電 為 NVIDIA 定 制 的4N 工藝和 CoWOS封裝實現,全片集成了800億個晶體管,運行頻率為1.776GHz(根據雙精度浮點峰值性能和全片集成運算部件數量推算得到),峰值性能為 60.0TFlops,TDP功耗為700 W。

3、AMD MI250X

為進一步加強在 HPC領域的影響力,AMD將旗下通用 GPUGP拆分成 RDNA(RadeonDNA)和 CDNA(ComputeDNA)架構,前者主要面向實時游戲和圖形處理,后者主要面向 HPC應用。

CDNA 架構目前已經發展到第2代 MI200,代表高性能處理器是 MI250X發布于2021年11月,并用于構建美國E級超算“前線”(Frontier)。“前 線”超 算 發 布 于 2022 年 5 月 30日,在全球高性能計算機 TOP500榜單中排名第1,集成的 MI250X 處理器芯片數量高達36992片,全機峰值性能為1.68565EFlops,Linpack實測性能為1.102EFlops,效率為65.38%。

圖片

MI250X處理器采用 AMD 特有的先進3D封裝技 術 集 成 2 個 MI200 GCD(GraphicsComputeDie),2個 GCD 間通過無盡互連IF(Infinit Fabric)接口直連實現高帶寬通信。MI250X 處理y器中單個 GCD(非 MI200滿配)結構框圖如圖3所示,包含4個計算引擎 CE(ComputeEngine),每個 CE內含27或28個計算單元 CU(ComputeUnit)。MI250X 處 理 器 全 片 2 個 GCD 共 220 個CU;集成了16 MB 的 L2Cache;8個16GB 容量的 HBM2E,總容量為128GB、總帶寬為3.2TB/s;8路IFLink或者6路IFLink加PCIe4.0接口(2路IF接口可重構配置成 PCIE4.0接口),支持GPU 和 CPU 多種可擴展高速互連。

MI250X處理器采用臺積電 N6工藝實現,全片集成了 582 億個晶體管,運行頻率最高為 1.7GHz,峰值性能為 95.7TFlops,是首個峰值性能接近 100 TFlops的 高 性 能 處 理 器,TDP 功 耗 為560 W。

4、Intel PonteVecchio

Intel一直致力于重新贏得 HPC 領域的高性能處理器領導者地位,其精心打造的面向 E 級計算的高性能處理器 PonteVecchio于2021年8月在Intel體系結構日上發布,2023年1季度已上市。PonteVecchio處理器將用于構建2臺美國 E級計 算 機 “極 光”(Aurora)和 “酋 長 巖”(ElCaptain),并為其提供主要算力,預計“極光”的超算峰值性能為1.0EFlops、“酋長巖”的超算峰值性能為2.0EFlops。

PonteVecchio處理器采用 X HPC架構實現,結構框圖如圖4所示。

圖片

PonteVecchio處理器通過多種先進封裝集成2個同構的 Stack,Stack 間通過高速直連接口互連;全片共8個 Slice,每個 Slice包含16個 X 核心,總計128個 X 核心;全片集成了144 MB的共享 L2Cache;8個 HBM2E,總帶寬超過5TB/s;16路 X Link,支持多 CPU 間高速直連,總帶寬超過2TB/s;此外還集成了 PCIe5.0接口。

PonteVecchio處理器采用 5 種先進工藝實現,包括臺積電5nm、7nm 和Intel 7nm 等,全片多 達 47 個 Tile (Die),通 過 Foveros和 EMIB等多種先進封裝技術集成。全片集成了超過1000億個晶體管,運行頻率為1.373GHz(根據單精度浮點峰值性能和全片集成運算部件數量推算得到),峰值性能超過45.0TFlops(雙精度浮點與單精度浮點相同),功耗暫無官方數據。

5、小結

4款面向 E級計算的高性能處理器參數與對比統計信息如表1所示,4款處理器均采用臺積電7nm 或更先進工藝,集成密度高、晶體管數目龐大,通過先進封裝集成高帶寬存儲器 HBM 提供TB/s級訪存帶寬,并采用商用大容量存儲顆粒。

圖片

工作頻 率 方 面,A64FX 的 較 高,達 到 了 2.2GHz,H100 和 MI250X 的 均 在 1.7 GHz 左 右,PonteVecchio的最低為1.373GHz;

峰值性能方面,A64FX 是唯一峰值性能低于10.0TFlops的處理器,其他3款的均超過45.0TFlops,MI250X的甚 至 高 達 95.7 TFlops;

功 耗 方 面,H100 和MI250X的均超過 500 W,PonteVecchio的無官方數據,預計也會超過500W。

先進封裝技術方面,均采用了2.5D 或3D 封裝,MI250X 還通過 EFB封裝集成了2個 GCD,而 PonteVecchio采用 Foveros+EMIB 封裝集成超過47個 Die,并通過多種先進工藝分別實現了計算 Die、存儲 Die和互連 Die。

作者:吳鐵彬、過鋒、王諦

責任編輯:武曉燕 來源: 架構師技術聯盟
相關推薦

2025-03-13 05:00:00

2024-02-26 00:00:00

Go性能工具

2016-07-07 11:00:54

聯想

2025-06-11 02:10:00

2024-07-11 08:26:00

2024-08-06 08:27:51

2021-11-04 06:58:31

CSS性能設備

2024-02-02 09:21:57

API性能策略

2023-12-29 08:29:15

QPS系統應用

2025-04-16 08:01:05

Ceph對象存儲

2023-04-26 07:30:00

promptUI非結構化

2022-10-08 00:00:05

SQL機制結構

2024-12-30 08:03:08

2024-02-20 21:34:16

循環GolangGo

2021-08-27 07:06:10

IOJava抽象

2022-12-07 09:01:14

布局容器VStack?

2023-08-10 08:28:46

網絡編程通信

2023-08-04 08:20:56

DockerfileDocker工具

2023-06-30 08:18:51

敏捷開發模式

2022-05-24 08:21:16

數據安全API
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美激情久久久 | 精品久久久久久亚洲综合网站 | 日日干夜夜干 | 国产精品久久久久一区二区三区 | 久久久久久免费观看 | 无人区国产成人久久三区 | 久久综合九九 | 久久久精品一区二区三区 | 中文字幕 在线观看 | 精品久久久久久久人人人人传媒 | 中文精品视频 | 亚洲精品乱码久久久久久黑人 | 久久久久久免费精品一区二区三区 | 久久不射电影网 | 亚洲一区二区三区四区五区午夜 | 玖玖色在线视频 | 北条麻妃视频在线观看 | 午夜视频在线观看视频 | 成人在线免费观看 | 日本在线中文 | 91精品久久久久久久久久入口 | 久久国产精品一区二区三区 | 午夜视频一区 | 热久久国产 | 久久国产精品久久 | 国产色黄 | 国产成人午夜高潮毛片 | 精区3d动漫一品二品精区 | 精品国产免费人成在线观看 | 婷婷精品 | 日韩电影一区二区三区 | 日日噜噜噜夜夜爽爽狠狠视频97 | 一区二区三区视频 | 91网站在线看 | 欧美成人一区二区三区 | 国产在线一区观看 | 日本午夜免费福利视频 | 日韩一区二区三区视频 | 一区二区三区在线 | 精品欧美视频 | 黄色av网站在线观看 |