深度學(xué)習(xí)GPU選購指南：哪款顯卡配得上我的煉丹爐？

作者：新智元 2023-01-17 15:18:20

最近，曾拿到斯坦福、UCL、CMU、NYU博士offer、目前在華盛頓大學(xué)讀博的知名測評博主Tim Dettmers在自己的網(wǎng)站又上線了深度學(xué)習(xí)領(lǐng)域的GPU深度測評，到底誰才是性能和性價(jià)比之王？

眾所周知，在處理深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)任務(wù)時，最好使用GPU而不是CPU來處理，因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)方面，即使是一個比較低端的GPU，性能也會勝過CPU。

深度學(xué)習(xí)是一個對計(jì)算有著大量需求的領(lǐng)域，從一定程度上來說，GPU的選擇將從根本上決定深度學(xué)習(xí)的體驗(yàn)。

但問題來了，如何選購合適的GPU也是件頭疼燒腦的事。

怎么避免踩雷，如何做出性價(jià)比高的選擇？

曾經(jīng)拿到過斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在華盛頓大學(xué)讀博的知名評測博主Tim Dettmers就針對深度學(xué)習(xí)領(lǐng)域需要怎樣的GPU，結(jié)合自身經(jīng)驗(yàn)撰寫了萬字長文，最后給出了DL領(lǐng)域的推薦GPU。

Tim Dettmers此人的研究方向是表征學(xué)習(xí)、硬件優(yōu)化的深度學(xué)習(xí)，他自己創(chuàng)建的網(wǎng)站在深度學(xué)習(xí)和計(jì)算機(jī)硬件領(lǐng)域也是小有名氣。

Tim Dettmers此文推薦的GPU全部來自N廠，他顯然也認(rèn)為，搞機(jī)器學(xué)習(xí)，AMD目前還不配擁有姓名。

原文鏈接小編也貼在下面啦。

原文鏈接：https://timdettmers.com/2023/01/16/which-gpu-for-deep-learning/#GPU_Deep_Learning_Performance_per_Dollar

RTX40和30系的優(yōu)缺點(diǎn)

與英偉達(dá)圖靈架構(gòu)RTX 20系列相比，新的英偉達(dá)安培架構(gòu)RTX 30系列具有更多優(yōu)勢，如稀疏網(wǎng)絡(luò)訓(xùn)練和推理。其他功能，如新的數(shù)據(jù)類型，應(yīng)更多地被看作是一種易用化功能，因?yàn)樗鼈兲峁┝伺c圖靈架構(gòu)相同的性能提升，但不需要任何額外的編程要求。

Ada RTX 40系列甚至有更多的進(jìn)步，比如上面介紹的張量內(nèi)存加速器（TMA）和8位浮點(diǎn)運(yùn)算（FP8）。與RTX 30相比，RTX 40系列也有類似的電源和溫度問題。RTX 40的電源連接器電纜融化的問題可以通過正確連接電源電纜而輕松避免。

稀疏的網(wǎng)絡(luò)訓(xùn)練

安培允許在密集的速度下進(jìn)行細(xì)粒度結(jié)構(gòu)的自動稀疏矩陣乘法。這是如何做到的？以一個權(quán)重矩陣為例，把它切成4個元素的碎片。現(xiàn)在想象這4個元素中的2個元素為零。圖1顯示了這種情況的樣子。

圖1：Ampere架構(gòu)GPU中的稀疏矩陣乘法功能所支持的結(jié)構(gòu)

當(dāng)你將這個稀疏權(quán)重矩陣與一些密集輸入相乘時，安培的稀疏矩陣張量核心功能會自動將稀疏矩陣壓縮為密集表示，其大小為圖2所示的一半。

在壓縮之后，密集壓縮的矩陣瓦片被送入張量核心，張量核心計(jì)算的矩陣乘法是通常大小的兩倍。這有效地產(chǎn)生了2倍的速度，因?yàn)樵诠蚕韮?nèi)存的矩陣乘法過程中，帶寬要求減半。

圖2：在進(jìn)行矩陣乘法之前，稀疏矩陣被壓縮為密集表示。

我在研究中致力于稀疏網(wǎng)絡(luò)訓(xùn)練，我還寫了一篇關(guān)于稀疏訓(xùn)練的博文。對我的工作的一個批評是："你減少了網(wǎng)絡(luò)所需的FLOPS，但并沒有產(chǎn)生速度的提升，因?yàn)镚PU不能進(jìn)行快速的稀疏矩陣乘法"。

隨著Tensor Cores的稀疏矩陣乘法功能的增加，我的算法或其他稀疏訓(xùn)練算法，現(xiàn)在實(shí)際上在訓(xùn)練期間提供了高達(dá)2倍的速度。

開發(fā)的稀疏訓(xùn)練算法有三個階段：（1）確定每層的重要性。(2) 刪除最不重要的權(quán)重。(3) 提升與每層的重要性成比例的新權(quán)重。

雖然這一功能仍處于實(shí)驗(yàn)階段，而且訓(xùn)練稀疏網(wǎng)絡(luò)還不普遍，但在你的GPU上擁有這一功能意味著你已經(jīng)為稀疏訓(xùn)練的未來做好了準(zhǔn)備。

低精度計(jì)算

在我的工作中，我之前已經(jīng)表明，新的數(shù)據(jù)類型可以提高低精度反向傳播期間的穩(wěn)定性。

圖4：低精度深度學(xué)習(xí)8位數(shù)據(jù)類型。深度學(xué)習(xí)訓(xùn)練得益于高度專業(yè)化的數(shù)據(jù)類型

目前，如果你想用16位浮點(diǎn)數(shù)（FP16）進(jìn)行穩(wěn)定的反向傳播，最大的問題是普通FP16數(shù)據(jù)類型只支持[-65,504, 65,504]范圍內(nèi)的數(shù)字。如果你的梯度滑過這個范圍，你的梯度就會爆炸成NaN值。

為了防止在FP16訓(xùn)練中出現(xiàn)這種情況，我們通常會進(jìn)行損失縮放，即在反向傳播之前將損失乘以一個小數(shù)字，以防止這種梯度爆炸。

Brain Float 16格式（BF16）對指數(shù)使用了更多的比特，這樣可能的數(shù)字范圍與FP32相同，BF16的精度較低，也就是有效數(shù)字，但梯度精度對學(xué)習(xí)來說并不那么重要。

所以BF16所做的是，你不再需要做任何損失縮放，也不需要擔(dān)心梯度會迅速爆炸。因此，我們應(yīng)該看到，通過使用BF16格式，訓(xùn)練的穩(wěn)定性有所提高，因?yàn)榫嚷杂袚p失。

這對你意味著什么。使用BF16精度，訓(xùn)練可能比使用FP16精度更穩(wěn)定，同時提供相同的速度提升。使用TF32精度，你可以得到接近FP32的穩(wěn)定性，同時提供接近FP16的速度提升。

好的是，要使用這些數(shù)據(jù)類型，你只需用TF32取代FP32，用BF16取代FP16--不需要修改代碼。

不過總的來說，這些新的數(shù)據(jù)類型可以被看作是懶惰的數(shù)據(jù)類型，因?yàn)槟憧梢酝ㄟ^一些額外的編程努力（適當(dāng)?shù)膿p失縮放、初始化、規(guī)范化、使用Apex）來獲得舊數(shù)據(jù)類型的所有好處。

因此，這些數(shù)據(jù)類型并沒有提供速度，而是改善了訓(xùn)練中低精度的使用便利性。

風(fēng)扇設(shè)計(jì)和GPU溫度

雖然RTX 30系列的新風(fēng)扇設(shè)計(jì)在冷卻GPU方面表現(xiàn)非常好，但非創(chuàng)始版GPU的不同風(fēng)扇設(shè)計(jì)可能會出現(xiàn)更多問題。

如果你的GPU發(fā)熱超過80C，它就會自我節(jié)流，減慢其計(jì)算速度/功率。解決這個問題的辦法是使用PCIe擴(kuò)展器，在GPU之間創(chuàng)造空間。

用PCIe擴(kuò)展器分散GPU對散熱非常有效，華盛頓大學(xué)的其他博士生和我都使用這種設(shè)置，并取得了巨大的成功。它看起來并不漂亮，但它能使你的GPU保持涼爽!

下面這套系統(tǒng)已經(jīng)運(yùn)行了4年，完全沒有問題。如果你沒有足夠的空間在PCIe插槽中安裝所有的GPU，也可以這么用。

圖5: 帶PCIE擴(kuò)展口的4顯卡系統(tǒng)，看起來一團(tuán)亂，但散熱效率很高。

優(yōu)雅地解決功耗限制問題

在你的GPU上設(shè)置一個功率限制是可能的。因此，你將能夠以編程方式將RTX 3090的功率限制設(shè)置為300W，而不是其標(biāo)準(zhǔn)的350W。在4個GPU系統(tǒng)中，這相當(dāng)于節(jié)省了200W，這可能剛好足夠用1600W PSU建立一個4x RTX 3090系統(tǒng)的可行性。

這還有助于保持GPU的冷卻。因此，設(shè)置功率限制可以同時解決4x RTX 3080或4x RTX 3090設(shè)置的兩個主要問題，冷卻和電源。對于4倍的設(shè)置，你仍然需要高效散熱風(fēng)扇的 GPU，但這解決了電源的問題。

圖6：降低功率限制有輕微的冷卻效果。將RTX 2080 Ti的功率限制降低50-60W，溫度略有下降，風(fēng)扇運(yùn)行更加安靜

你可能會問，「這不會降低GPU的速度嗎？」是的，確實(shí)會降，但問題是降了多少。

我對圖5所示的4x RTX 2080 Ti系統(tǒng)在不同功率限制下進(jìn)行了基準(zhǔn)測試。我對推理過程中BERT Large的500個小批次的時間進(jìn)行了基準(zhǔn)測試（不包括softmax層）。選擇BERT Large推理，對GPU的壓力最大。

圖7：在RTX 2080 Ti上，在給定的功率限制下測得的速度下降

我們可以看到，設(shè)置功率限制并不嚴(yán)重影響性能。將功率限制在50W，性能僅下降7%。

RTX 4090接頭起火問題

有一種誤解，認(rèn)為RTX 4090電源線起火是因?yàn)楸粡澱圻^度了。實(shí)際上只有0.1%的用戶是這個原因，主要問題是電纜沒有正確插入。

因此，如果你遵循以下安裝說明，使用RTX 4090是完全安全的。

1. 如果你使用舊的電纜或舊的GPU，確保觸點(diǎn)沒有碎片/灰塵。

2.使用電源連接器，并將其插入插座，直到你聽到咔嚓一聲--這是最重要的部分。

3. 通過從左到右扭動電源線來測試是否合適。電纜不應(yīng)該移動。

4.目視檢查與插座的接觸情況，電纜和插座之間無間隙。

H100和RTX40中的8位浮點(diǎn)支持

對8位浮點(diǎn)（FP8）的支持是RTX 40系列和H100 GPU的一個巨大優(yōu)勢。

有了8位輸入，它允許你以兩倍的速度加載矩陣乘法的數(shù)據(jù)，你可以在緩存中存儲兩倍的矩陣元素，而在Ada和Hopper架構(gòu)中，緩存是非常大的，現(xiàn)在有了FP8張量核心，你可以為RTX 4090獲得0.66 PFLOPS的計(jì)算量。

這比2007年世界上最快的超級計(jì)算機(jī)的全部算力還要高。4倍于FP8計(jì)算的RTX 4090，可與2010年世界上最快的超級計(jì)算機(jī)相媲美。

可以看到，最好的8位基線未能提供良好的零點(diǎn)性能。我開發(fā)的方法LLM.int8()可以進(jìn)行Int8矩陣乘法，結(jié)果與16位基線相同。

但是Int8已經(jīng)被RTX 30 / A100 / Ampere這一代GPU所支持，為什么FP8在RTX 40中又是一個大升級呢？FP8數(shù)據(jù)類型比Int8數(shù)據(jù)類型要穩(wěn)定得多，而且很容易在層規(guī)范或非線性函數(shù)中使用，這在整型數(shù)據(jù)類型中是很難做到的。

這將使它在訓(xùn)練和推理中的使用變得非常簡單明了。我認(rèn)為這將使FP8的訓(xùn)練和推理在幾個月后變得相對普遍。

下面你可以看到這篇論文中關(guān)于Float vs Integer數(shù)據(jù)類型的一個相關(guān)主要結(jié)果。我們可以看到，逐個比特，F(xiàn)P4數(shù)據(jù)類型比Int4數(shù)據(jù)類型保留了更多的信息，從而提高了4個任務(wù)的平均LLM零點(diǎn)準(zhǔn)確性。