基于 Fractional GPUs 的 GPU 計(jì)算共享方案，知多少？

作者：架構(gòu)驛站 2025-01-22 13:20:04

眾所周知，隨著 AI 領(lǐng)域?qū)?GPU 資源需求的不斷增長，高效的資源管理變得至關(guān)重要。這不僅能夠確保系統(tǒng)性能的最優(yōu)化，還能實(shí)現(xiàn)對(duì)昂貴 GPU 資源的高效分配。

Hello folks，我是 Luga，今天我們來聊一下人工智能應(yīng)用場(chǎng)景 - 構(gòu)建高效、靈活的計(jì)算架構(gòu)的 GPU 計(jì)算共享方案。

在這一背景下，分片式 GPU（Fractional GPU）技術(shù)發(fā)揮了重要作用。通過這一技術(shù)，用戶能夠靈活優(yōu)化 GPU 的利用率，根據(jù)具體需求精確調(diào)整工作負(fù)載的 GPU 資源分配，從而避免資源浪費(fèi)或性能瓶頸的問題。

一、共享 GPU 工作負(fù)載當(dāng)前現(xiàn)狀與挑戰(zhàn)

在實(shí)際的業(yè)務(wù)場(chǎng)景中，當(dāng)我們需要通過 GPU 承載某個(gè)工作負(fù)載時(shí)，需要同時(shí)使用 GPU 的內(nèi)存子系統(tǒng)和計(jì)算子系統(tǒng)。其中，內(nèi)存子系統(tǒng)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)與讀取，計(jì)算子系統(tǒng)則負(fù)責(zé)實(shí)際的計(jì)算任務(wù)。對(duì)于單一工作負(fù)載來說，通常需要充分利用 GPU 的全部?jī)?nèi)存和計(jì)算能力。

然而，在多個(gè)工作負(fù)載共享同一塊 GPU 的場(chǎng)景下，這些工作負(fù)載不可避免地會(huì)競(jìng)爭(zhēng) GPU 資源的訪問權(quán)限。如果缺乏有效的資源管理，這種競(jìng)爭(zhēng)將導(dǎo)致工作負(fù)載無法獲得所需的內(nèi)存或計(jì)算資源，從而帶來性能下降和用戶體驗(yàn)不佳的后果。

具體而言，在共享 GPU 集群環(huán)境中，多個(gè) AI 工作負(fù)載常常需要同時(shí)運(yùn)行在同一塊 GPU 上。例如，在深度學(xué)習(xí)模型的訓(xùn)練和推理任務(wù)中，一些工作負(fù)載可能需要較大的顯存來存儲(chǔ)訓(xùn)練數(shù)據(jù)，而另一些工作負(fù)載可能對(duì)計(jì)算資源有更高需求。然而，傳統(tǒng)的 GPU 資源分配方式通常無法對(duì)這兩類資源進(jìn)行細(xì)粒度的分配和管理，導(dǎo)致 GPU 的使用效率低下，并且難以確保每個(gè)任務(wù)的性能穩(wěn)定性。

分片式 GPU（Fractional GPU）技術(shù)，為用戶提供了每個(gè)工作負(fù)載的 GPU 內(nèi)存配置功能。這一功能使得多個(gè)工作負(fù)載在共享同一塊 GPU 時(shí)，可以高效地分配顯存資源。例如，當(dāng)兩到三個(gè)輕量級(jí)推理任務(wù)共享 GPU 時(shí)，顯存資源可以根據(jù)各自需求進(jìn)行劃分，從而避免資源浪費(fèi)或顯存不足的問題。

然而，在 GPU 計(jì)算子系統(tǒng)的資源分配上，傳統(tǒng)方式存在較大局限性。以往，GPU 的計(jì)算能力通常是平均分配給并發(fā)的工作負(fù)載，而缺乏基于需求的動(dòng)態(tài)調(diào)整。例如：

如果某個(gè)工作負(fù)載被分配了 50% 的 GPU 內(nèi)存，那么在其單獨(dú)運(yùn)行時(shí)，能夠享受 GPU 的全部計(jì)算能力。
但當(dāng) 5 個(gè)其他工作負(fù)載同時(shí)運(yùn)行時(shí)，此時(shí)，工作負(fù)載的計(jì)算能力可能會(huì)被平均分配到 GPU 的 1/6，這種固定比例的資源分配方式，無法滿足高優(yōu)先級(jí)任務(wù)的性能需求，容易導(dǎo)致吞吐量不可預(yù)測(cè)或延遲增加，最終影響業(yè)務(wù)穩(wěn)定性和用戶滿意度。

這種局限性在實(shí)際場(chǎng)景中可能會(huì)帶來顯著問題。例如：

深度學(xué)習(xí)推理：在實(shí)時(shí)視頻分析或語音識(shí)別中，推理延遲直接決定用戶體驗(yàn)。若推理任務(wù)因其他工作負(fù)載干擾導(dǎo)致 GPU 計(jì)算資源不足，可能會(huì)引發(fā)延遲超標(biāo)，進(jìn)而影響業(yè)務(wù)服務(wù)。
模型訓(xùn)練：當(dāng)多個(gè)團(tuán)隊(duì)共享同一塊 GPU 進(jìn)行訓(xùn)練時(shí)，如果無法動(dòng)態(tài)調(diào)整計(jì)算資源分配，高優(yōu)先級(jí)的模型訓(xùn)練任務(wù)可能會(huì)受到低優(yōu)先級(jí)任務(wù)的干擾，延長訓(xùn)練周期，降低整體效率。

針對(duì)這一痛點(diǎn)，分片式 GPU 技術(shù)便應(yīng)運(yùn)而生，將其支持范圍從“顯存分配”擴(kuò)展到 GPU 計(jì)算資源的動(dòng)態(tài)配置。這種改進(jìn)使得用戶可以針對(duì)不同的工作負(fù)載需求，獨(dú)立配置 GPU 的計(jì)算能力，從而在多任務(wù)環(huán)境下實(shí)現(xiàn)更穩(wěn)定和高效的資源分配。

二、分片式 GPU（Fractional GPU）解決哪些問題？

為了應(yīng)對(duì) GPU 資源共享中面臨的挑戰(zhàn)，分片式 GPU 技術(shù)通過以下三種模式，使用戶能夠以工作負(fù)載為單位，對(duì) GPU 計(jì)算共享進(jìn)行更精細(xì)的控制。具體可參考：

1. 基于優(yōu)先級(jí)的計(jì)算共享（Priority-Based Mode - 優(yōu)先級(jí)模式）

基于優(yōu)先級(jí)計(jì)算共享可以為每個(gè)工作負(fù)載配置特定的優(yōu)先級(jí)。這種模式確保高優(yōu)先級(jí)的工作負(fù)載在其完成之前始終擁有對(duì)所有計(jì)算資源的完全訪問權(quán)限。這項(xiàng)增強(qiáng)功能使用戶能夠保證關(guān)鍵任務(wù)的穩(wěn)定性能，避免因資源競(jìng)爭(zhēng)導(dǎo)致的性能下降。

2. 可配置的時(shí)間片比例（Fair Mode - 公平模式）

基于此種模式，用戶可以定義每個(gè)工作負(fù)載在 GPU 上獲得的時(shí)間片比例。時(shí)間片是指 GPU 在一段時(shí)間內(nèi)分配給某個(gè)工作負(fù)載進(jìn)行計(jì)算的時(shí)間段。通過配置時(shí)間片比例，可以實(shí)現(xiàn)對(duì)資源分配的精細(xì)化控制，確保每個(gè)工作負(fù)載根據(jù)其重要性獲得適當(dāng)比例的計(jì)算資源。

3. 可配置的計(jì)算消耗上限（Strict Mode - 嚴(yán)格模式）

基于此種模式，用戶可以為每個(gè)工作負(fù)載配置計(jì)算資源利用率的上限。這種模式可以防止某個(gè)工作負(fù)載長時(shí)間占用所有資源，從而對(duì)其他工作負(fù)載的性能產(chǎn)生負(fù)面影響，確保資源的公平共享。

三、分片式 GPU（Fractional GPU）應(yīng)用場(chǎng)景解析

在實(shí)際的業(yè)務(wù)場(chǎng)景中，基于分片式 GPU（Fractional GPU）技術(shù)所具備的靈活性和強(qiáng)大的配置能力，為多種應(yīng)用場(chǎng)景帶來了高效且精確的資源分配方式，具體可參考如下：

1. 具有不同優(yōu)先級(jí)的模型推理服務(wù)

設(shè)想這樣一種場(chǎng)景：多個(gè)推理服務(wù)運(yùn)行在同一個(gè) GPU 集群上，但它們具有不同的優(yōu)先級(jí)。一些推理服務(wù)負(fù)責(zé)處理對(duì)響應(yīng)時(shí)間要求極高的實(shí)時(shí)請(qǐng)求，而另一些則處理對(duì)響應(yīng)時(shí) 間要求不嚴(yán)格的后臺(tái)任務(wù)或離線請(qǐng)求（即服務(wù)級(jí)別協(xié)議 (SLA) 不那么嚴(yán)格）。

傳統(tǒng)的 GPU 資源分配方式通常無法有效地處理這種混合工作負(fù)載。高優(yōu)先級(jí)任務(wù)可能會(huì)因?yàn)橘Y源不足而受到影響，而低優(yōu)先級(jí)任務(wù)則可能占用過多資源，造成浪費(fèi)。

而基于分片式 GPU 解決方案能夠有效地解決這一問題。它可以根據(jù)任務(wù)的優(yōu)先級(jí)動(dòng)態(tài)調(diào)整 GPU 資源的分配。例如，當(dāng)有新的實(shí)時(shí)請(qǐng)求到達(dá)時(shí)，可以自動(dòng)暫停或降低低優(yōu)先級(jí)任務(wù)的資源占用，確保關(guān)鍵的實(shí)時(shí)服務(wù)器能夠及時(shí)獲得所需的計(jì)算資源，從而避免性能瓶頸，保障服務(wù)的平穩(wěn)運(yùn)行。一旦高優(yōu)先級(jí)任務(wù)完成，便會(huì)自動(dòng)恢復(fù)低優(yōu)先級(jí)任務(wù)的執(zhí)行，最大限度地提高 GPU 的整體利用率。

打個(gè)比方，在一個(gè)在線購物平臺(tái)的推薦系統(tǒng)中，用戶瀏覽商品時(shí)觸發(fā)的推薦請(qǐng)求需要快速響應(yīng)，屬于高優(yōu)先級(jí)任務(wù)；而后臺(tái)的模型更新任務(wù)則可以容忍一定的延遲，屬于低優(yōu)先級(jí)任務(wù)。使用此解決方案，可以確保推薦請(qǐng)求得到及時(shí)的處理，同時(shí)又不影響后臺(tái)模型的更新。

2. 具有不同 SLA 的模型推理服務(wù)

在實(shí)際的場(chǎng)景中，不同的推理服務(wù)可能需要不同的響應(yīng)時(shí)間。一些服務(wù)需要極短的響應(yīng)時(shí)間以滿足實(shí)時(shí)性要求，而另一些服務(wù)則可以容忍較長的響應(yīng)時(shí)間。

分片式 GPU 允許為不同的服務(wù)配置不同的時(shí)間共享比例，從而根據(jù)需求和 SLA 要求分配 GPU 計(jì)算資源。例如，對(duì)于需要高吞吐量和低延遲的服務(wù)，可以分配更高的 GPU 時(shí)間片；而對(duì)于可以容忍一定延遲的服務(wù)，則可以分配較低的 GPU 時(shí)間片。這種精細(xì)化的控制能夠確保 GPU 計(jì)算資源按照實(shí)際需求進(jìn)行分配，避免資源浪費(fèi)和性能瓶頸。

例如，一個(gè)在線游戲服務(wù)需要極低的延遲以保證用戶體驗(yàn)，而一個(gè)后臺(tái)的數(shù)據(jù)分析服務(wù)則可以容忍一定的延遲。基于此解決方案，可以為游戲服務(wù)分配更高的 GPU 時(shí)間片，確保游戲的流暢運(yùn)行，同時(shí)又能利用剩余的 GPU 資源進(jìn)行數(shù)據(jù)分析。

3. 共享 GPU 集群上進(jìn)行模型訓(xùn)練的不同租戶

通常，在研究與開發(fā)環(huán)境中，多個(gè)用戶通常需要共享同一 GPU 集群來訓(xùn)練 AI 模型。然而，傳統(tǒng)的資源分配方式往往面臨資源競(jìng)爭(zhēng)和分配不公平的問題，不僅導(dǎo)致模型訓(xùn)練效率下降，還可能對(duì)訓(xùn)練過程的穩(wěn)定性產(chǎn)生負(fù)面影響。

借助分片式 GPU 解決方案，用戶可以根據(jù)自身需求靈活設(shè)置任務(wù)優(yōu)先級(jí)和資源分配比例，從而實(shí)現(xiàn)對(duì) GPU 資源的公平訪問，同時(shí)保證模型訓(xùn)練性能的穩(wěn)定性和一致性。通過優(yōu)先級(jí)機(jī)制，高優(yōu)先級(jí)任務(wù)能夠在資源分配中占據(jù)優(yōu)勢(shì)，確保關(guān)鍵任務(wù)及時(shí)完成，而低優(yōu)先級(jí)任務(wù)則在資源空閑時(shí)被動(dòng)態(tài)調(diào)度，充分利用集群計(jì)算能力。

舉例說明，在某研究團(tuán)隊(duì)中，多個(gè)成員需要同時(shí)使用共享的 GPU 集群開展各自的模型訓(xùn)練工作。傳統(tǒng)模式下，不同成員的任務(wù)可能因資源爭(zhēng)奪導(dǎo)致訓(xùn)練效率降低，甚至影響整體進(jìn)度。引入分片式 GPU 解決方案后，團(tuán)隊(duì)成員可以根據(jù)任務(wù)的緊急程度、復(fù)雜性及重要性，自主申請(qǐng) GPU 資源并設(shè)定優(yōu)先級(jí)。調(diào)度系統(tǒng)會(huì)依據(jù)這些優(yōu)先級(jí)，智能化分配 GPU 計(jì)算和內(nèi)存資源，避免資源沖突和分配不均的問題。

這一策略不僅有效提升了 GPU 集群的整體利用效率，還顯著優(yōu)化了團(tuán)隊(duì)協(xié)作環(huán)境，使高優(yōu)先級(jí)任務(wù)的訓(xùn)練得到優(yōu)先保障，而低優(yōu)先級(jí)任務(wù)則在資源空閑時(shí)被合理調(diào)度運(yùn)行，從而實(shí)現(xiàn)了資源的最大化利用和團(tuán)隊(duì)生產(chǎn)力的整體提升。

今天的解析就到這里。欲了解更多關(guān)于 GPU 相關(guān)技術(shù)的深入剖析、最佳實(shí)踐以及相關(guān)技術(shù)前沿，敬請(qǐng)關(guān)注我們的微信公眾號(hào)“架構(gòu)驛站”，獲取更多獨(dú)家技術(shù)洞察！

Happy Coding ~

Reference ：