HBM技術有何優勢?詳解高帶寬存儲器
原創人工智能技術在驅動企業創新發展的同時,也對算力提出了更高的要求。尤其是隨著生成式AI的出現,不但對CPU、GPU性能提出了更高的需求,也對存儲性能的要求越來越高。在高算力、高帶寬的需求下,如何解決存儲的性能瓶頸?為此,高帶寬存儲器(HBM)走進了人們的視野。
近期,英偉達推出的新一代圖形處理器中,便搭載了HBM3e內存,使得容量、帶寬和性能得到全面提升,在讓各個企業看到了高帶寬存儲器(HBM)的價值同時,也使得三星、海力士、美光等存儲企業加大了對高帶寬存儲器(HBM)的投入。
什么是高帶寬存儲器(HBM)?
高帶寬存儲器,簡稱HBM,即High Bandwidth Memory,是一種具備高性能、高容量的存儲芯片,被廣泛應用于高性能計算、數據中心等領域。
我們知道,DRAM(動態隨機存儲器)由于具備較高的讀寫速度、隨機訪問等優點,被廣泛應用于服務器和計算機的內存條等。HBM與DRAM的區別在于,它采用了3D堆疊技術,將多個DRAM芯片堆疊在一起,從而實現了更高容量,更大的存儲帶寬和更低的延遲。
自2013年第一代HBM誕生以來,隨著技術的不斷發展,HBM也經歷了HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的順序迭代,最新的HBM3E是HBM3的擴展版本,速率達到了8Gbps。
高帶寬存儲器(HBM)有哪些優勢?
HBM最初并不是以存儲性能作為開發目的,而是以提高存儲容量為主。通過利用3D芯片堆疊技術將多個DRAM芯片堆疊在一起,從而提供更大的存儲容量。
隨著AI技術的發展,其對GPU性能和功能提出了更高的要求。在此背景之下,GPU的功能越來越強,需要更加快速地從內存中訪問數據,以此來縮短應用處理的時間。特別是在生成式AI出現之后,大型語言模型 (LLM)需要重復訪問數十億甚至數萬億個參數,如此龐大且頻繁的數據處理,往往需要數小時甚至數天的時間,這顯然無法滿足要求。于是,傳輸速度也成了HBM的核心參數。
實際上,目前HBM大都采用了標準化設計:HBM 存儲器堆棧通過微凸塊連接到 HBM 堆棧中的硅通孔(TSV 或連接孔),并與放置在基礎封裝層上的中間件相連,中間件上還安裝有處理器,提供 HBM 到處理器的連接。與此同時,HBM通過控制芯片對多個DRAM芯片進行控制,使它們能夠同時讀取或寫入數據,從而提高了存儲帶寬和數據處理能力。
不難看出,這樣的設計與普通的DRAM相比,能夠同時垂直連接多個DRAM并顯著提升數據處理速度,這也是HBM具備更高存儲帶寬和更低延遲的關鍵所在。
可以說,與DRAM相比,HBM不但擁有容量上的優勢,能夠同時存儲更多的數據,而且擁有更高的帶寬,能夠大幅提升數據的讀寫速度。這也是英偉達在新一代圖形處理器中采用HBM的根本原因。
高帶寬存儲器(HBM)的最新技術趨勢
雖然HBM已經演變到了第五代,甚至第六代HBM4技術也初露頭角,但時至今日,HBM3e(第五代)仍舊沒有完全應用于產品當中。
作為HBM(高帶寬存儲器)的擴展版本,HBM3e采用了垂直互連多個DRAM芯片的設計。相較于傳統的DRAM產品,HBM3E在數據處理速度上顯著提高。根據SK海力士公布的數據,HBM3E最高每秒可處理1.15TB的數據,相當于在一秒鐘內即可處理230多部5GB大小的全高清電影。這種高性能的數據處理能力使得HBM3E成為人工智能內存產品當中的關鍵規格。
今年7月,美光提供了8hi(24GB)NVIDIA樣品、SK海力士也于今年8月中提供8hi(24GB)樣品,三星于今年10月初提供8hi(24GB)樣品。預期2024年第一季完成HBM3e產品驗證。
從HBM1到HBM3e都保留了相同的1024位(每個堆棧)接口,即具有以相對適中的時鐘速度運行的超寬接口,為了提高內存傳輸速率,預計下一代HBM4可能需要對高帶寬內存技術進行更實質性的改變,即從更寬的2048位內存接口開始。
相關報道顯示,HBM4在DRAM堆疊方面,2048位內存接口需要大幅增加內存堆疊的硅通孔數量。同時,外部芯片接口需要將凸塊間距縮小到遠小于55微米,而HBM3目前的凸塊總數(約)為3982個,因此需要大幅增加微型凸塊的總數。
除此之外,業界還將打算在一個模塊中堆疊多達16個內存模塊,即所謂的16-Hi堆疊,這將使得內存供應商能夠顯著提高其HBM堆疊的容量。當然,HBM4將面臨著更大的技術挑戰,芯片的生產難度也將更大。
為此,臺積電就曾表示,由于HBM4不是將速度提高了一倍,而是將接口引腳增加了一倍。因此臺積電要與所有三家合作伙伴合作,確保三星、美光、海力士等的HBM4(采用臺積電的先進封裝方法)符合標準,并確保RDL或interposer或任何介于兩者之間的產品都能支持HBM4的布局和速度。
不同廠商的HBM技術發展路徑
雖然同為HBM技術,但芯片廠商的發展路徑卻不相同。
三星正在研究在中間件中使用光子技術,光子通過鏈路的速度比電子編碼的比特更快,而且耗電量更低。除此之外,三星還將HBM堆棧更直接地連接到處理器,這意味著隨著時間的推移,HBM 堆棧可以升級,以提供更大的容量,但這需要一個涵蓋該領域的行業標準才有可能實現。
海力士正在研究HBM與邏輯處理器直接連接的概念,在混合使用的半導體中將GPU芯片與 HBM芯片一起制造。這個想法涉及內存和邏輯制造商共同設計芯片,然后由臺積電(TSMC)等晶圓廠運營商制造。
美光目前正在生產HBM3e gen-2內存,采用8層垂直堆疊的24GB芯片。12層垂直堆疊36GB芯片計劃于2024年開始出樣。此外,美光正與半導體代工運營商臺積電合作,將其 gen-2 HBM3e 用于人工智能和 HPC 設計應用。
至于誰家的技術更先進,目前尚且無法判斷。不過可以確定的是,隨著HBM技術的不斷成熟,將會為人工智能帶來更強的算力支撐。