基于 Fractional GPUs 的 GPU 計(jì)算共享方案,知多少?
Hello folks,我是 Luga,今天我們來聊一下人工智能應(yīng)用場(chǎng)景 - 構(gòu)建高效、靈活的計(jì)算架構(gòu)的 GPU 計(jì)算共享方案。
眾所周知,隨著 AI 領(lǐng)域?qū)?GPU 資源需求的不斷增長,高效的資源管理變得至關(guān)重要。這不僅能夠確保系統(tǒng)性能的最優(yōu)化,還能實(shí)現(xiàn)對(duì)昂貴 GPU 資源的高效分配。
在這一背景下,分片式 GPU(Fractional GPU) 技術(shù)發(fā)揮了重要作用。通過這一技術(shù),用戶能夠靈活優(yōu)化 GPU 的利用率,根據(jù)具體需求精確調(diào)整工作負(fù)載的 GPU 資源分配,從而避免資源浪費(fèi)或性能瓶頸的問題。
一、共享 GPU 工作負(fù)載當(dāng)前現(xiàn)狀與挑戰(zhàn)
在實(shí)際的業(yè)務(wù)場(chǎng)景中,當(dāng)我們需要通過 GPU 承載某個(gè)工作負(fù)載時(shí),需要同時(shí)使用 GPU 的內(nèi)存子系統(tǒng)和計(jì)算子系統(tǒng)。其中,內(nèi)存子系統(tǒng)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)與讀取,計(jì)算子系統(tǒng)則負(fù)責(zé)實(shí)際的計(jì)算任務(wù)。對(duì)于單一工作負(fù)載來說,通常需要充分利用 GPU 的全部?jī)?nèi)存和計(jì)算能力。
然而,在多個(gè)工作負(fù)載共享同一塊 GPU 的場(chǎng)景下,這些工作負(fù)載不可避免地會(huì)競(jìng)爭(zhēng) GPU 資源的訪問權(quán)限。如果缺乏有效的資源管理,這種競(jìng)爭(zhēng)將導(dǎo)致工作負(fù)載無法獲得所需的內(nèi)存或計(jì)算資源,從而帶來性能下降和用戶體驗(yàn)不佳的后果。
具體而言,在共享 GPU 集群環(huán)境中,多個(gè) AI 工作負(fù)載常常需要同時(shí)運(yùn)行在同一塊 GPU 上。例如,在深度學(xué)習(xí)模型的訓(xùn)練和推理任務(wù)中,一些工作負(fù)載可能需要較大的顯存來存儲(chǔ)訓(xùn)練數(shù)據(jù),而另一些工作負(fù)載可能對(duì)計(jì)算資源有更高需求。然而,傳統(tǒng)的 GPU 資源分配方式通常無法對(duì)這兩類資源進(jìn)行細(xì)粒度的分配和管理,導(dǎo)致 GPU 的使用效率低下,并且難以確保每個(gè)任務(wù)的性能穩(wěn)定性。
分片式 GPU(Fractional GPU)技術(shù),為用戶提供了每個(gè)工作負(fù)載的 GPU 內(nèi)存配置功能。這一功能使得多個(gè)工作負(fù)載在共享同一塊 GPU 時(shí),可以高效地分配顯存資源。例如,當(dāng)兩到三個(gè)輕量級(jí)推理任務(wù)共享 GPU 時(shí),顯存資源可以根據(jù)各自需求進(jìn)行劃分,從而避免資源浪費(fèi)或顯存不足的問題。
然而,在 GPU 計(jì)算子系統(tǒng)的資源分配上,傳統(tǒng)方式存在較大局限性。以往,GPU 的計(jì)算能力通常是平均分配給并發(fā)的工作負(fù)載,而缺乏基于需求的動(dòng)態(tài)調(diào)整。例如:
- 如果某個(gè)工作負(fù)載被分配了 50% 的 GPU 內(nèi)存,那么在其單獨(dú)運(yùn)行時(shí),能夠享受 GPU 的全部計(jì)算能力。
- 但當(dāng) 5 個(gè)其他工作負(fù)載同時(shí)運(yùn)行時(shí),此時(shí),工作負(fù)載的計(jì)算能力可能會(huì)被平均分配到 GPU 的 1/6,這種固定比例的資源分配方式,無法滿足高優(yōu)先級(jí)任務(wù)的性能需求,容易導(dǎo)致吞吐量不可預(yù)測(cè)或延遲增加,最終影響業(yè)務(wù)穩(wěn)定性和用戶滿意度。
這種局限性在實(shí)際場(chǎng)景中可能會(huì)帶來顯著問題。例如:
- 深度學(xué)習(xí)推理:在實(shí)時(shí)視頻分析或語音識(shí)別中,推理延遲直接決定用戶體驗(yàn)。若推理任務(wù)因其他工作負(fù)載干擾導(dǎo)致 GPU 計(jì)算資源不足,可能會(huì)引發(fā)延遲超標(biāo),進(jìn)而影響業(yè)務(wù)服務(wù)。
- 模型訓(xùn)練:當(dāng)多個(gè)團(tuán)隊(duì)共享同一塊 GPU 進(jìn)行訓(xùn)練時(shí),如果無法動(dòng)態(tài)調(diào)整計(jì)算資源分配,高優(yōu)先級(jí)的模型訓(xùn)練任務(wù)可能會(huì)受到低優(yōu)先級(jí)任務(wù)的干擾,延長訓(xùn)練周期,降低整體效率。
針對(duì)這一痛點(diǎn),分片式 GPU 技術(shù)便應(yīng)運(yùn)而生,將其支持范圍從“顯存分配”擴(kuò)展到 GPU 計(jì)算資源的動(dòng)態(tài)配置。這種改進(jìn)使得用戶可以針對(duì)不同的工作負(fù)載需求,獨(dú)立配置 GPU 的計(jì)算能力,從而在多任務(wù)環(huán)境下實(shí)現(xiàn)更穩(wěn)定和高效的資源分配。
二、分片式 GPU(Fractional GPU)解決哪些問題?
為了應(yīng)對(duì) GPU 資源共享中面臨的挑戰(zhàn),分片式 GPU 技術(shù)通過以下三種模式,使用戶能夠以工作負(fù)載為單位,對(duì) GPU 計(jì)算共享進(jìn)行更精細(xì)的控制。具體可參考 :
1. 基于優(yōu)先級(jí)的計(jì)算共享(Priority-Based Mode - 優(yōu)先級(jí)模式)
基于優(yōu)先級(jí)計(jì)算共享可以為每個(gè)工作負(fù)載配置特定的優(yōu)先級(jí)。這種模式確保高優(yōu)先級(jí)的工作負(fù)載在其完成之前始終擁有對(duì)所有計(jì)算資源的完全訪問權(quán)限。這項(xiàng)增強(qiáng)功能使用戶能夠保證關(guān)鍵任務(wù)的穩(wěn)定性能,避免因資源競(jìng)爭(zhēng)導(dǎo)致的性能下降。
2. 可配置的時(shí)間片比例(Fair Mode - 公平模式)
基于此種模式,用戶可以定義每個(gè)工作負(fù)載在 GPU 上獲得的時(shí)間片比例。時(shí)間片是指 GPU 在一段時(shí)間內(nèi)分配給某個(gè)工作負(fù)載進(jìn)行計(jì)算的時(shí)間段。通過配置時(shí)間片比例,可以實(shí)現(xiàn)對(duì)資源分配的精細(xì)化控制,確保每個(gè)工作負(fù)載根據(jù)其重要性獲得適當(dāng)比例的計(jì)算資源。
3. 可配置的計(jì)算消耗上限(Strict Mode - 嚴(yán)格模式)
基于此種模式,用戶可以為每個(gè)工作負(fù)載配置計(jì)算資源利用率的上限。這種模式可以防止某個(gè)工作負(fù)載長時(shí)間占用所有資源,從而對(duì)其他工作負(fù)載的性能產(chǎn)生負(fù)面影響,確保資源的公平共享。
三、分片式 GPU(Fractional GPU)應(yīng)用場(chǎng)景解析
在實(shí)際的業(yè)務(wù)場(chǎng)景中,基于分片式 GPU(Fractional GPU)技術(shù)所具備的靈活性和強(qiáng)大的配置能力,為多種應(yīng)用場(chǎng)景帶來了高效且精確的資源分配方式,具體可參考如下:
1. 具有不同優(yōu)先級(jí)的模型推理服務(wù)
設(shè)想這樣一種場(chǎng)景:多個(gè)推理服務(wù)運(yùn)行在同一個(gè) GPU 集群上,但它們具有不同的優(yōu)先級(jí)。一些推理服務(wù)負(fù)責(zé)處理對(duì)響應(yīng)時(shí)間要求極高的實(shí)時(shí)請(qǐng)求,而另一些則處理對(duì)響應(yīng)時(shí) 間要求不嚴(yán)格的后臺(tái)任務(wù)或離線請(qǐng)求(即服務(wù)級(jí)別協(xié)議 (SLA) 不那么嚴(yán)格)。
傳統(tǒng)的 GPU 資源分配方式通常無法有效地處理這種混合工作負(fù)載。高優(yōu)先級(jí)任務(wù)可能會(huì)因?yàn)橘Y源不足而受到影響,而低優(yōu)先級(jí)任務(wù)則可能占用過多資源,造成浪費(fèi)。
而基于分片式 GPU 解決方案能夠有效地解決這一問題。它可以根據(jù)任務(wù)的優(yōu)先級(jí)動(dòng)態(tài)調(diào)整 GPU 資源的分配。例如,當(dāng)有新的實(shí)時(shí)請(qǐng)求到達(dá)時(shí),可以自動(dòng)暫停或降低低優(yōu)先級(jí)任務(wù)的資源占用,確保關(guān)鍵的實(shí)時(shí)服務(wù)器能夠及時(shí)獲得所需的計(jì)算資源,從而避免性能瓶頸,保障服務(wù)的平穩(wěn)運(yùn)行。一旦高優(yōu)先級(jí)任務(wù)完成,便會(huì)自動(dòng)恢復(fù)低優(yōu)先級(jí)任務(wù)的執(zhí)行,最大限度地提高 GPU 的整體利用率。
打個(gè)比方,在一個(gè)在線購物平臺(tái)的推薦系統(tǒng)中,用戶瀏覽商品時(shí)觸發(fā)的推薦請(qǐng)求需要快速響應(yīng),屬于高優(yōu)先級(jí)任務(wù);而后臺(tái)的模型更新任務(wù)則可以容忍一定的延遲,屬于低優(yōu)先級(jí)任務(wù)。使用此解決方案,可以確保推薦請(qǐng)求得到及時(shí)的處理,同時(shí)又不影響后臺(tái)模型的更新。
2. 具有不同 SLA 的模型推理服務(wù)
在實(shí)際的場(chǎng)景中,不同的推理服務(wù)可能需要不同的響應(yīng)時(shí)間。一些服務(wù)需要極短的響應(yīng)時(shí)間以滿足實(shí)時(shí)性要求,而另一些服務(wù)則可以容忍較長的響應(yīng)時(shí)間。
分片式 GPU 允許為不同的服務(wù)配置不同的時(shí)間共享比例,從而根據(jù)需求和 SLA 要求分配 GPU 計(jì)算資源。例如,對(duì)于需要高吞吐量和低延遲的服務(wù),可以分配更高的 GPU 時(shí)間片;而對(duì)于可以容忍一定延遲的服務(wù),則可以分配較低的 GPU 時(shí)間片。這種精細(xì)化的控制能夠確保 GPU 計(jì)算資源按照實(shí)際需求進(jìn)行分配,避免資源浪費(fèi)和性能瓶頸。
例如, 一個(gè)在線游戲服務(wù)需要極低的延遲以保證用戶體驗(yàn),而一個(gè)后臺(tái)的數(shù)據(jù)分析服務(wù)則可以容忍一定的延遲。基于此解決方案,可以為游戲服務(wù)分配更高的 GPU 時(shí)間片,確保游戲的流暢運(yùn)行,同時(shí)又能利用剩余的 GPU 資源進(jìn)行數(shù)據(jù)分析。
3. 共享 GPU 集群上進(jìn)行模型訓(xùn)練的不同租戶
通常,在研究與開發(fā)環(huán)境中,多個(gè)用戶通常需要共享同一 GPU 集群來訓(xùn)練 AI 模型。然而,傳統(tǒng)的資源分配方式往往面臨資源競(jìng)爭(zhēng)和分配不公平的問題,不僅導(dǎo)致模型訓(xùn)練效率下降,還可能對(duì)訓(xùn)練過程的穩(wěn)定性產(chǎn)生負(fù)面影響。
借助分片式 GPU 解決方案,用戶可以根據(jù)自身需求靈活設(shè)置任務(wù)優(yōu)先級(jí)和資源分配比例,從而實(shí)現(xiàn)對(duì) GPU 資源的公平訪問,同時(shí)保證模型訓(xùn)練性能的穩(wěn)定性和一致性。通過優(yōu)先級(jí)機(jī)制,高優(yōu)先級(jí)任務(wù)能夠在資源分配中占據(jù)優(yōu)勢(shì),確保關(guān)鍵任務(wù)及時(shí)完成,而低優(yōu)先級(jí)任務(wù)則在資源空閑時(shí)被動(dòng)態(tài)調(diào)度,充分利用集群計(jì)算能力。
舉例說明,在某研究團(tuán)隊(duì)中,多個(gè)成員需要同時(shí)使用共享的 GPU 集群開展各自的模型訓(xùn)練工作。傳統(tǒng)模式下,不同成員的任務(wù)可能因資源爭(zhēng)奪導(dǎo)致訓(xùn)練效率降低,甚至影響整體進(jìn)度。引入分片式 GPU 解決方案后,團(tuán)隊(duì)成員可以根據(jù)任務(wù)的緊急程度、復(fù)雜性及重要性,自主申請(qǐng) GPU 資源并設(shè)定優(yōu)先級(jí)。調(diào)度系統(tǒng)會(huì)依據(jù)這些優(yōu)先級(jí),智能化分配 GPU 計(jì)算和內(nèi)存資源,避免資源沖突和分配不均的問題。
這一策略不僅有效提升了 GPU 集群的整體利用效率,還顯著優(yōu)化了團(tuán)隊(duì)協(xié)作環(huán)境,使高優(yōu)先級(jí)任務(wù)的訓(xùn)練得到優(yōu)先保障,而低優(yōu)先級(jí)任務(wù)則在資源空閑時(shí)被合理調(diào)度運(yùn)行,從而實(shí)現(xiàn)了資源的最大化利用和團(tuán)隊(duì)生產(chǎn)力的整體提升。
今天的解析就到這里。欲了解更多關(guān)于 GPU 相關(guān)技術(shù)的深入剖析、最佳實(shí)踐以及相關(guān)技術(shù)前沿,敬請(qǐng)關(guān)注我們的微信公眾號(hào)“架構(gòu)驛站”,獲取更多獨(dú)家技術(shù)洞察 !
Happy Coding ~
Reference :
- [1] https://docs.nvidia.com/
- [2] https://mp.weixin.qq.com/s/W28AMNxoOnajbFyJ8ETAkg