全球哄搶H100！英偉達成GPU霸主，首席科學家揭秘成功四要素

作者：新智元 2023-09-10 12:40:01

人工智能新聞

英偉達首席科學家揭秘英偉達GPU能如此成功的4個主要原因，4個關鍵數據帶來持續的行業競爭力。

如今的英偉達，穩坐GPU霸主王座。

ChatGPT誕生后，帶來生成式AI大爆發，徹底掀起了全球的算力爭奪戰。

前段時間，一篇文章揭露，全球對H100總需求量超43萬張，而且這樣的趨勢至少持續到2024年底。

過去的10年里，英偉達成功地將自家芯片在AI任務上的性能提升了千倍。

對于一個剛剛邁入萬億美元的公司來說，是如何取得成功的？

近日，英偉達首席科學家Bill Dally在硅谷舉行的IEEE 2023年熱門芯片研討會上，發表了關于高性能微處理器的主題演講。

在他演講PPT中的一頁，總結了英偉達迄今為止取得成功的4個要素。

摩爾定律在英偉達的「神奇魔法」中只占很小的一部分，而全新「數字表示」占據很大一部分。

英偉達如何在10年內將其GPU在AI任務上的性能提高了千倍

把以上所有這些加在一起，你就會得到「黃氏定律」（Huang's Law）。

黃教主曾表示，「由于圖形處理器的出現，摩爾定律已經站不住腳了，代之以一個新的超強定律。」

數字表示：16倍提升

Dally表示，總的來說，我們最大的收獲是來自更好的「數字表示」。

這些數字，代表著神經網絡的「關鍵參數」。

其中一個參數是權重，模型中神經元與神經元之間的連接強度。

另一個是激活度，神經元的加權輸入之和乘以多少才能決定它是否激活，從而將信息傳播到下一層。

在P100之前，英偉達GPU使用單精度浮點數來表示這些權重。

根據IEEE 754標準定義，這些數字長度為32位，其中23位表示分數，8位基本上是分數的指數，還有1位表示數字的符號。

但機器學習研究人員很快發現，在許多計算中，可以使用不太精確的數字，而神經網絡仍然會給出同樣精確的答案。

這樣做的明顯優勢是，如果機器學習的關鍵計算——乘法和累加——需要處理更少的比特，可以使邏輯變得更快、更小、更高效。

因此，在P100中，英偉達使用了半精度FP16。

谷歌甚至提出了自己的版本，稱作bfloat16。

兩者的區別在于分數位和指數位的相對數量：分數位提供精度，指數位提供范圍。Bfloat16的范圍位數與FP32相同，因此在兩種格式之間來回切換更容易。

回到現在，英偉達領先的圖形處理器H100，可以使用8位數完成大規模Transformer神經網絡的某些任務，如ChatGPT和其他大型語言模型。

然而，英偉達卻發現這不是一個萬能的解決方案。

例如，英偉達的Hopper圖形處理器架構實際上使用兩種不同的FP8格式進行計算，一種精度稍高，另一種范圍稍大。英偉達的特殊優勢在于知道何時使用哪種格式。

Dally和他的團隊有各種各樣有趣的想法，可以從更少的比特中榨取更多的人工智能性能。顯然，浮點系統顯然并不理想。

一個主要問題是，無論數字有多大或多小，浮點精度都非常一致。

但是神經網絡的參數不使用大數，而是主要集聚在0附近。因此，英偉達的R&D重點是尋找有效的方法來表示數字，以便它們在0附近更準確。

復雜指令：12.5倍

「提取和解碼指令的開銷遠遠超過執行簡單算術操作的開銷，」 Dally說道。

他以一個乘法指令為例，執行這個指令的固定開銷達到了執行數學運算本身所需的1.5焦耳的20倍。通過將GPU設計為在單個指令中執行大規模計算，而不是一系列的多個指令，英偉達有效地降低了單個計算的開銷，取得了巨大的收益。

Dally表示，雖然仍然存在一些開銷，但在復雜指令的情況下，這些開銷會分攤到更多的數學運算中。例如，復雜指令整數矩陣乘積累加（IMMA）的開銷僅占數學計算能量成本的16％。

摩爾定律：2.5倍

保持摩爾定律的有效性需要數十億美元的投資、非常復雜的工程上的設計，甚至還會帶來國際關系的不穩定。但這些投入都不是造成英偉達GPU的成功的主要原因。

英偉達一直在使用全球最先進的制造技術來生產GPU——H100采用臺積電的的N5（5納米）工藝制造。這家芯片工廠直到2022年底才開始建設它的其下一代N3工藝。在建好之前，N5就是業內最頂尖的制造工藝。

稀疏性：2倍

將這些網絡變得「稀疏」以減少計算負荷是一項棘手的工作。

但是在A100，H100的前身中，英偉達引入了他們的新技術：「結構化稀疏性」。這種硬件設計可以強制實現每四個可能的剪枝事件中的兩次，從而帶來了一種新的更小的矩陣計算。

Dally表示：「我們在稀疏性方面的工作尚未結束。我們需要再對激活函數進行加工，并且權重中也可以有更大的稀疏性。」

責任編輯：張燕妮來源：新智元

英偉達 GPU

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球哄搶H100！英偉達成GPU霸主，首席科學家揭秘成功四要素

數字表示：16倍提升

復雜指令：12.5倍

摩爾定律：2.5倍

稀疏性：2倍