成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度學(xué)習(xí)GPU選購指南:哪款顯卡配得上我的煉丹爐?

人工智能 新聞
最近,曾拿到斯坦福、UCL、CMU、NYU博士offer、目前在華盛頓大學(xué)讀博的知名測評博主Tim Dettmers在自己的網(wǎng)站又上線了深度學(xué)習(xí)領(lǐng)域的GPU深度測評,到底誰才是性能和性價(jià)比之王?

眾所周知,在處理深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)任務(wù)時,最好使用GPU而不是CPU來處理,因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)方面,即使是一個比較低端的GPU,性能也會勝過CPU。

深度學(xué)習(xí)是一個對計(jì)算有著大量需求的領(lǐng)域,從一定程度上來說,GPU的選擇將從根本上決定深度學(xué)習(xí)的體驗(yàn)。

但問題來了,如何選購合適的GPU也是件頭疼燒腦的事。

怎么避免踩雷,如何做出性價(jià)比高的選擇?

曾經(jīng)拿到過斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在華盛頓大學(xué)讀博的知名評測博主Tim Dettmers就針對深度學(xué)習(xí)領(lǐng)域需要怎樣的GPU,結(jié)合自身經(jīng)驗(yàn)撰寫了萬字長文,最后給出了DL領(lǐng)域的推薦GPU。

圖片


Tim Dettmers此人的研究方向是表征學(xué)習(xí)、硬件優(yōu)化的深度學(xué)習(xí),他自己創(chuàng)建的網(wǎng)站在深度學(xué)習(xí)和計(jì)算機(jī)硬件領(lǐng)域也是小有名氣。

圖片

Tim Dettmers此文推薦的GPU全部來自N廠,他顯然也認(rèn)為,搞機(jī)器學(xué)習(xí),AMD目前還不配擁有姓名。

原文鏈接小編也貼在下面啦。

圖片

原文鏈接:https://timdettmers.com/2023/01/16/which-gpu-for-deep-learning/#GPU_Deep_Learning_Performance_per_Dollar

RTX40和30系的優(yōu)缺點(diǎn)

與英偉達(dá)圖靈架構(gòu)RTX 20系列相比,新的英偉達(dá)安培架構(gòu)RTX 30系列具有更多優(yōu)勢,如稀疏網(wǎng)絡(luò)訓(xùn)練和推理。其他功能,如新的數(shù)據(jù)類型,應(yīng)更多地被看作是一種易用化功能,因?yàn)樗鼈兲峁┝伺c圖靈架構(gòu)相同的性能提升,但不需要任何額外的編程要求。

Ada RTX 40系列甚至有更多的進(jìn)步,比如上面介紹的張量內(nèi)存加速器(TMA)和8位浮點(diǎn)運(yùn)算(FP8)。與RTX 30相比,RTX 40系列也有類似的電源和溫度問題。RTX 40的電源連接器電纜融化的問題可以通過正確連接電源電纜而輕松避免。

稀疏的網(wǎng)絡(luò)訓(xùn)練

安培允許在密集的速度下進(jìn)行細(xì)粒度結(jié)構(gòu)的自動稀疏矩陣乘法。這是如何做到的?以一個權(quán)重矩陣為例,把它切成4個元素的碎片。現(xiàn)在想象這4個元素中的2個元素為零。圖1顯示了這種情況的樣子。

圖片

圖1:Ampere架構(gòu)GPU中的稀疏矩陣乘法功能所支持的結(jié)構(gòu)

當(dāng)你將這個稀疏權(quán)重矩陣與一些密集輸入相乘時,安培的稀疏矩陣張量核心功能會自動將稀疏矩陣壓縮為密集表示,其大小為圖2所示的一半。

在壓縮之后,密集壓縮的矩陣瓦片被送入張量核心,張量核心計(jì)算的矩陣乘法是通常大小的兩倍。這有效地產(chǎn)生了2倍的速度,因?yàn)樵诠蚕韮?nèi)存的矩陣乘法過程中,帶寬要求減半。

圖片

圖2:在進(jìn)行矩陣乘法之前,稀疏矩陣被壓縮為密集表示。

我在研究中致力于稀疏網(wǎng)絡(luò)訓(xùn)練,我還寫了一篇關(guān)于稀疏訓(xùn)練的博文。對我的工作的一個批評是:"你減少了網(wǎng)絡(luò)所需的FLOPS,但并沒有產(chǎn)生速度的提升,因?yàn)镚PU不能進(jìn)行快速的稀疏矩陣乘法"。

隨著Tensor Cores的稀疏矩陣乘法功能的增加,我的算法或其他稀疏訓(xùn)練算法,現(xiàn)在實(shí)際上在訓(xùn)練期間提供了高達(dá)2倍的速度。

開發(fā)的稀疏訓(xùn)練算法有三個階段:(1)確定每層的重要性。(2) 刪除最不重要的權(quán)重。(3) 提升與每層的重要性成比例的新權(quán)重。

雖然這一功能仍處于實(shí)驗(yàn)階段,而且訓(xùn)練稀疏網(wǎng)絡(luò)還不普遍,但在你的GPU上擁有這一功能意味著你已經(jīng)為稀疏訓(xùn)練的未來做好了準(zhǔn)備。

低精度計(jì)算

在我的工作中,我之前已經(jīng)表明,新的數(shù)據(jù)類型可以提高低精度反向傳播期間的穩(wěn)定性。

圖片

圖4:低精度深度學(xué)習(xí)8位數(shù)據(jù)類型。深度學(xué)習(xí)訓(xùn)練得益于高度專業(yè)化的數(shù)據(jù)類型

目前,如果你想用16位浮點(diǎn)數(shù)(FP16)進(jìn)行穩(wěn)定的反向傳播,最大的問題是普通FP16數(shù)據(jù)類型只支持[-65,504, 65,504]范圍內(nèi)的數(shù)字。如果你的梯度滑過這個范圍,你的梯度就會爆炸成NaN值。

為了防止在FP16訓(xùn)練中出現(xiàn)這種情況,我們通常會進(jìn)行損失縮放,即在反向傳播之前將損失乘以一個小數(shù)字,以防止這種梯度爆炸。

Brain Float 16格式(BF16)對指數(shù)使用了更多的比特,這樣可能的數(shù)字范圍與FP32相同,BF16的精度較低,也就是有效數(shù)字,但梯度精度對學(xué)習(xí)來說并不那么重要。

所以BF16所做的是,你不再需要做任何損失縮放,也不需要擔(dān)心梯度會迅速爆炸。因此,我們應(yīng)該看到,通過使用BF16格式,訓(xùn)練的穩(wěn)定性有所提高,因?yàn)榫嚷杂袚p失。

這對你意味著什么。使用BF16精度,訓(xùn)練可能比使用FP16精度更穩(wěn)定,同時提供相同的速度提升。使用TF32精度,你可以得到接近FP32的穩(wěn)定性,同時提供接近FP16的速度提升。

好的是,要使用這些數(shù)據(jù)類型,你只需用TF32取代FP32,用BF16取代FP16--不需要修改代碼。

不過總的來說,這些新的數(shù)據(jù)類型可以被看作是懶惰的數(shù)據(jù)類型,因?yàn)槟憧梢酝ㄟ^一些額外的編程努力(適當(dāng)?shù)膿p失縮放、初始化、規(guī)范化、使用Apex)來獲得舊數(shù)據(jù)類型的所有好處。

因此,這些數(shù)據(jù)類型并沒有提供速度,而是改善了訓(xùn)練中低精度的使用便利性。

風(fēng)扇設(shè)計(jì)和GPU溫度

雖然RTX 30系列的新風(fēng)扇設(shè)計(jì)在冷卻GPU方面表現(xiàn)非常好,但非創(chuàng)始版GPU的不同風(fēng)扇設(shè)計(jì)可能會出現(xiàn)更多問題。

如果你的GPU發(fā)熱超過80C,它就會自我節(jié)流,減慢其計(jì)算速度/功率。解決這個問題的辦法是使用PCIe擴(kuò)展器,在GPU之間創(chuàng)造空間。

用PCIe擴(kuò)展器分散GPU對散熱非常有效,華盛頓大學(xué)的其他博士生和我都使用這種設(shè)置,并取得了巨大的成功。它看起來并不漂亮,但它能使你的GPU保持涼爽!

下面這套系統(tǒng)已經(jīng)運(yùn)行了4年,完全沒有問題。如果你沒有足夠的空間在PCIe插槽中安裝所有的GPU,也可以這么用。

圖片

圖5: 帶PCIE擴(kuò)展口的4顯卡系統(tǒng),看起來一團(tuán)亂,但散熱效率很高。

優(yōu)雅地解決功耗限制問題

在你的GPU上設(shè)置一個功率限制是可能的。因此,你將能夠以編程方式將RTX 3090的功率限制設(shè)置為300W,而不是其標(biāo)準(zhǔn)的350W。在4個GPU系統(tǒng)中,這相當(dāng)于節(jié)省了200W,這可能剛好足夠用1600W PSU建立一個4x RTX 3090系統(tǒng)的可行性。

這還有助于保持GPU的冷卻。因此,設(shè)置功率限制可以同時解決4x RTX 3080或4x RTX 3090設(shè)置的兩個主要問題,冷卻和電源。對于4倍的設(shè)置,你仍然需要高效散熱風(fēng)扇的 GPU,但這解決了電源的問題。

圖片

圖6:降低功率限制有輕微的冷卻效果。將RTX 2080 Ti的功率限制降低50-60W,溫度略有下降,風(fēng)扇運(yùn)行更加安靜

你可能會問,「這不會降低GPU的速度嗎?」 是的,確實(shí)會降,但問題是降了多少。

我對圖5所示的4x RTX 2080 Ti系統(tǒng)在不同功率限制下進(jìn)行了基準(zhǔn)測試。我對推理過程中BERT Large的500個小批次的時間進(jìn)行了基準(zhǔn)測試(不包括softmax層)。選擇BERT Large推理,對GPU的壓力最大。

圖片

圖7:在RTX 2080 Ti上,在給定的功率限制下測得的速度下降

我們可以看到,設(shè)置功率限制并不嚴(yán)重影響性能。將功率限制在50W,性能僅下降7%。

RTX 4090接頭起火問題

有一種誤解,認(rèn)為RTX 4090電源線起火是因?yàn)楸粡澱圻^度了。實(shí)際上只有0.1%的用戶是這個原因,主要問題是電纜沒有正確插入。

因此,如果你遵循以下安裝說明,使用RTX 4090是完全安全的。

1. 如果你使用舊的電纜或舊的GPU,確保觸點(diǎn)沒有碎片/灰塵。

2.使用電源連接器,并將其插入插座,直到你聽到咔嚓一聲--這是最重要的部分。

3. 通過從左到右扭動電源線來測試是否合適。電纜不應(yīng)該移動。

4.目視檢查與插座的接觸情況,電纜和插座之間無間隙。

H100和RTX40中的8位浮點(diǎn)支持

對8位浮點(diǎn)(FP8)的支持是RTX 40系列和H100 GPU的一個巨大優(yōu)勢。

有了8位輸入,它允許你以兩倍的速度加載矩陣乘法的數(shù)據(jù),你可以在緩存中存儲兩倍的矩陣元素,而在Ada和Hopper架構(gòu)中,緩存是非常大的,現(xiàn)在有了FP8張量核心,你可以為RTX 4090獲得0.66 PFLOPS的計(jì)算量。

這比2007年世界上最快的超級計(jì)算機(jī)的全部算力還要高。4倍于FP8計(jì)算的RTX 4090,可與2010年世界上最快的超級計(jì)算機(jī)相媲美。

圖片

可以看到,最好的8位基線未能提供良好的零點(diǎn)性能。我開發(fā)的方法LLM.int8()可以進(jìn)行Int8矩陣乘法,結(jié)果與16位基線相同。

但是Int8已經(jīng)被RTX 30 / A100 / Ampere這一代GPU所支持,為什么FP8在RTX 40中又是一個大升級呢?FP8數(shù)據(jù)類型比Int8數(shù)據(jù)類型要穩(wěn)定得多,而且很容易在層規(guī)范或非線性函數(shù)中使用,這在整型數(shù)據(jù)類型中是很難做到的。

這將使它在訓(xùn)練和推理中的使用變得非常簡單明了。我認(rèn)為這將使FP8的訓(xùn)練和推理在幾個月后變得相對普遍。

下面你可以看到這篇論文中關(guān)于Float vs Integer數(shù)據(jù)類型的一個相關(guān)主要結(jié)果。我們可以看到,逐個比特,F(xiàn)P4數(shù)據(jù)類型比Int4數(shù)據(jù)類型保留了更多的信息,從而提高了4個任務(wù)的平均LLM零點(diǎn)準(zhǔn)確性。

圖片

GPU深度學(xué)習(xí)性能排行

先上一張圖來看GPU的原始性能排行,看看誰最能打。

圖片

我們可以看到H100 GPU的8位性能與針對16位性能優(yōu)化的舊卡存在巨大差距。

上圖顯示的是GPU的原始相對性能,比如對于8位推理,RTX 4090的性能大約是 H100 SMX 的 0.33 倍。

換句話說,與RTX 4090相比,H100 SMX的8位推理速度快三倍。

對于此數(shù)據(jù),他沒有為舊GPU建模8位計(jì)算。

因?yàn)?位推理和訓(xùn)練在Ada/Hopper GPU上更有效,而張量內(nèi)存加速器 (TMA) 節(jié)省了大量寄存器,這些寄存器在 8 位矩陣乘法中非常精確。

Ada/Hopper 也有 FP8 支持,這使得特別是 8 位訓(xùn)練更加有效,在Hopper/Ada上,8位訓(xùn)練性能很可能是16位訓(xùn)練性能的3-4倍。

對于舊GPU,舊GPU的Int8推理性能則接近16位推理性能。

每一美元能買到多少算力

那么問題來了,GPU性能強(qiáng)可是我買不起啊......

針對預(yù)算不充足的小伙伴,接下來的圖表是他根據(jù)各個GPU的價(jià)格和性能統(tǒng)計(jì)的每美元性能排名(Performance per Dollar),側(cè)面反映了GPU性價(jià)比。

圖片

選擇一個完成深度學(xué)習(xí)任務(wù)并且符合預(yù)算的GPU,可分為以下幾個步驟:

  • 首先確定你需要多大的顯存(至少12GB用于圖像生成,至少24GB用于處理Transformer);
  • 針對選8位還是16位(8-bit or 16-bit),建議是能上16位就上,8位在處理復(fù)雜編碼任務(wù)時還是會有困難;
  • 根據(jù)上圖中的指標(biāo),找到具有最高相對性能/成本的GPU。

我們可以看到,RTX4070Ti 對于8位和16位推理的成本效益最高,而RTX3080對于16位訓(xùn)練的成本效益最高。

雖然這些GPU最具成本效益,但他們的內(nèi)存也是個短板,10GB和12GB的內(nèi)存可能無法滿足所有需求。

但對于剛?cè)肟由疃葘W(xué)習(xí)的新手來說可能是理想GPU。

其中一些GPU非常適合Kaggle競賽,在Kaggle比賽中取得好成績,工作方法比模型大小更重要,因此許多較小的 GPU非常適合。

Kaggle號稱是全球最大的數(shù)據(jù)科學(xué)家匯聚的平臺,高手云集,同時對萌新也很友好。

圖片

如果用作學(xué)術(shù)研究和服務(wù)器運(yùn)營的最佳GPU似乎是 A6000 Ada GPU。

同時H100 SXM的性價(jià)比也很高,內(nèi)存大性能強(qiáng)。

個人經(jīng)驗(yàn)來說,如果我要為公司/學(xué)術(shù)實(shí)驗(yàn)室構(gòu)建一個小型集群,我推薦66-80%的A6000 GPU 和20-33%的 H100 SXM GPU。

綜合推薦

說了這么多,終于到了GPU安利環(huán)節(jié)。

Tim Dettmers專門制作了一個「GPU選購流程圖」,預(yù)算充足就可以上更高配置,預(yù)算不足請參考性價(jià)比之選。

這里首先強(qiáng)調(diào)一點(diǎn):無論你選哪款 GPU,首先要確保它的內(nèi)存能滿足你的需求。為此,你要問自己幾個問題:

我要拿GPU做什么?是拿來參加 Kaggle 比賽、學(xué)深度學(xué)習(xí)、做CV/NLP研究還是玩小項(xiàng)目?

圖片

預(yù)算充足的情況下,可以查看上面的基準(zhǔn)測試并選擇適合自己的最佳GPU。

還可以通過在vast.ai或Lambda Cloud中運(yùn)行您的問題一段時間來估算所需的GPU內(nèi)存,以便了解它是否能滿足你的需求。

如果只是偶爾需要一個GPU(每隔幾天持續(xù)幾個小時)并且不需要下載和處理大型數(shù)據(jù)集,那么vast.ai或 Lambda Cloud也能很好地工作。

但是,如果一個月每天都使用GPU且使用頻率很高(每天12小時),云GPU通常不是一個好的選擇。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2012-11-07 15:06:01

激光打印機(jī)

2023-03-02 11:42:48

CPU芯片

2011-04-27 11:12:19

投影機(jī)

2012-06-11 14:53:02

掃描儀推薦

2012-10-29 12:40:21

黑白激光打印機(jī)

2011-05-04 15:44:35

掃描儀選購

2012-12-20 12:18:49

噴墨打印機(jī)

2010-08-30 12:52:46

2012-10-26 15:29:12

數(shù)碼復(fù)合機(jī)

2010-09-25 16:55:05

防火墻選購

2010-09-25 17:05:51

2011-05-06 10:52:16

彩色激光打印機(jī)選購指南

2021-02-17 21:15:11

電腦硬件工具

2010-03-17 15:03:02

2011-05-24 14:57:28

2011-04-21 10:38:29

自動雙面打印機(jī)

2009-02-24 09:27:00

2012-05-08 15:03:56

激光打印機(jī)推薦

2011-05-04 13:39:05

中小企業(yè)發(fā)票打印機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲成人一区二区 | 中文字幕国产精品 | 99免费视频| 99精品国产一区二区青青牛奶 | 色男人天堂av | 日韩免费视频一区二区 | 国产亚洲精品久久久久久豆腐 | 欧洲精品在线观看 | 欧美综合视频在线 | 国产美女一区二区 | 国产高清视频在线 | www性色| 免费黄色的视频 | 97国产在线观看 | 一本一道久久a久久精品蜜桃 | 亚洲精品永久免费 | 国产人免费人成免费视频 | 91日b| 亚洲综合无码一区二区 | 亚洲国产成人精品在线 | 欧美高清视频一区 | 最新国产在线 | 91精品国产91久久久久游泳池 | 色香蕉在线 | 91av久久久| 国产精品性做久久久久久 | 一区二区三区视频在线 | 欧美在线小视频 | 久久久久久久国产 | 久久久99精品免费观看 | 亚洲精品乱码久久久久久按摩观 | 久久久不卡网国产精品一区 | 久久精品欧美电影 | 天天天久久久 | 精品在线一区二区三区 | 爱操影视| 久久狠狠| 一级黄色录像毛片 | 91免费在线视频 | 天天综合网天天综合色 | 国产精品99久久久久久久久久久久 |