成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

并行擴展(Parallel Scaling):一種新型語言模型擴展范式

人工智能
我們來聊一項可以改變語言模型性能的技術(shù)——PARSCALE(Parallel Scaling)。如果有一種方法,能夠在不顯著增加模型參數(shù)的情況下,大幅提升模型的推理能力,同時還能顯著降低推理成本,那將是多么令人興奮的突破!PARSCALE 正是這樣一種技術(shù),它通過并行計算,為大型語言模型(LLM)的擴展提供了一種全新的思路。

“ PARSCALE 作為一種新型的語言模型擴展范式,通過增加并行計算次數(shù) P,在保持參數(shù)規(guī)模幾乎不變的情況下,能夠顯著提升模型的推理能力?!?/span>

大家好,我是肆〇柒。今天,我們來聊一項可以改變語言模型性能的技術(shù)——PARSCALE(Parallel Scaling)。如果有一種方法,能夠在不顯著增加模型參數(shù)的情況下,大幅提升模型的推理能力,同時還能顯著降低推理成本,那將是多么令人興奮的突破!PARSCALE 正是這樣一種技術(shù),它通過并行計算,為大型語言模型(LLM)的擴展提供了一種全新的思路。接下來,讓我們一起深入了解 PARSCALE,看看它是如何在保持參數(shù)規(guī)模幾乎不變的情況下,實現(xiàn)性能的飛躍的。

在當(dāng)下,LLM 的應(yīng)用場景不斷拓展,為我們的生活和工作帶來了前所未有的便利。然而,隨著模型規(guī)模的不斷擴大,LLM 在實際應(yīng)用中也面臨著一系列嚴峻的挑戰(zhàn)。

以參數(shù)擴展為例,像 DeepSeek-V3 這樣的模型,其參數(shù)規(guī)模已高達 672B,對內(nèi)存提出了極為苛刻的要求。這種高內(nèi)存需求使得模型在邊緣設(shè)備上的部署變得極為困難。想象一下,一臺智能手機或智能汽車,其內(nèi)存資源相對有限,如何能夠流暢運行如此龐大的模型?此外,推理時間擴展同樣帶來了高時間成本。例如,當(dāng)模型需要生成大量推理 token 時,即使是處理一個簡單的數(shù)學(xué)問題,也可能耗費數(shù)秒甚至數(shù)十秒的時間。這種延遲對于實時性要求較高的應(yīng)用場景來說,無疑是致命的。

這些問題嚴重限制了 LLM 在實際場景中的廣泛應(yīng)用,尤其是在智能手機、智能汽車和機器人等低資源邊緣設(shè)備上。例如,蘋果的 iPhone 14 系列手機,其內(nèi)存僅為 4GB 至 6GB,而運行一個 672B 參數(shù)的模型需要的內(nèi)存遠超此限制。同樣,特斯拉的 Autopilot 系統(tǒng)在處理實時駕駛決策時,無法承受高延遲的推理過程。模型的高性能與設(shè)備的低資源之間存在著巨大的矛盾,我們需要一種創(chuàng)新的解決方案。

PARSCALE 的價值與創(chuàng)新

在這樣的背景下,PARSCALE(Parallel Scaling)應(yīng)運而生。作為一種全新的語言模型擴展范式,PARSCALE 以其獨特的方式,為 LLM 的發(fā)展帶來了新的希望。

PARSCALE 的核心思想是在保持參數(shù)規(guī)模幾乎不變的情況下,通過增加并行計算來提升模型的推理能力。具體而言,它對輸入進行 P 種不同的可學(xué)習(xí)變換,然后并行地執(zhí)行模型的前向傳播,最后動態(tài)聚合這 P 個輸出。這種方法不僅能夠顯著增強模型的推理能力,還能有效降低推理成本。

與傳統(tǒng)的參數(shù)擴展和推理時間擴展相比,PARSCALE 在推理效率、訓(xùn)練成本和適用場景等方面展現(xiàn)出獨特的優(yōu)勢。例如,對于一個 1.6B 參數(shù)的模型,當(dāng)擴展到 P = 8 時,PARSCALE 僅需增加 22 倍的內(nèi)存,而參數(shù)擴展則需要增加 6 倍的內(nèi)存,并且在推理延遲方面,PARSCALE 也表現(xiàn)出色。這種高效性使得 LLM 在資源受限環(huán)境中的部署成為可能,為模型的實際應(yīng)用開辟了新的道路。

PARSCALE 的優(yōu)勢不僅體現(xiàn)在推理效率和成本上,還在于其對模型泛化能力的潛在提升。通過增加并行流數(shù)量 P,模型能夠在訓(xùn)練和推理過程中接觸到更多樣的輸入變換和輸出聚合方式,這有助于模型學(xué)習(xí)到更廣泛、更魯棒的特征表示,從而在面對不同領(lǐng)域和風(fēng)格的數(shù)據(jù)時表現(xiàn)得更加出色。

圖片

(1) 本文提出的并行擴展方法(PAR SCALE)的示意圖。(2) 在Stack-V2(Python子集)的420億個tokens上進行預(yù)訓(xùn)練模型的并行擴展法則。(3) 損失擴展曲線與推理成本的關(guān)系。結(jié)果是基于批量大小為{1, 2, 4, 8}和輸入+輸出tokens數(shù)為{128, 256, 512, 1024}的平均值。

如上圖所示,PARSCALE 通過增加并行流數(shù)量 P,在保持參數(shù)規(guī)模幾乎不變的情況下,顯著提升了模型的推理能力。上圖(1)展示了 PARSCALE 的工作原理,包括輸入變換、并行前向傳播和動態(tài)輸出聚合的過程。上圖(2)展示了在 Stack-V2 數(shù)據(jù)集上,不同參數(shù)規(guī)模和并行流數(shù)量 P 下的預(yù)訓(xùn)練模型的 scaling law。上圖(3)則展示了推理成本與損失的曲線關(guān)系,表明 PARSCALE 在推理效率方面的優(yōu)勢。

PARSCALE 核心概念

靈感來源與技術(shù)設(shè)想

PARSCALE 的靈感源于分類器自由引導(dǎo)(Classifier-free Guidance,CFG),這是一種在擴散模型中廣泛應(yīng)用的技術(shù)。在擴散模型中,CFG 通過兩次前向傳播來提升模型性能。它首先對輸入 x 進行正常前向傳播,得到第一個輸出;然后對輸入進行擾動(例如去除條件信息),得到第二個輸出;最后根據(jù)預(yù)設(shè)的對比規(guī)則,將這兩個輸出進行聚合。這種兩次計算的方式,使得模型能夠在推理階段獲得比單次前向傳播更優(yōu)的性能。

其中, w是一個預(yù)設(shè)的超參數(shù),用于控制條件信息的影響程度。這種對比規(guī)則的設(shè)計使得模型能夠在條件化和無條件化的輸出之間找到平衡,從而提升生成結(jié)果的質(zhì)量。

PARSCALE 借鑒了 CFG 的核心思想,并進行了創(chuàng)新性的擴展。它不再局限于兩次前向傳播,而是通過 P 種不同的可學(xué)習(xí)變換對輸入進行處理,生成 P 個不同的輸入版本。這些變換后的輸入被并行地送入模型進行前向傳播,得到 P 個輸出。隨后,通過一個動態(tài)加權(quán)平均的方法,將這 P 個輸出聚合為一個最終輸出。這個動態(tài)加權(quán)平均的過程,利用一個多層感知機(MLP)將多個輸出轉(zhuǎn)換為聚合權(quán)重,從而實現(xiàn)對不同輸出的動態(tài)融合。

這種動態(tài)加權(quán)平均機制使得模型能夠根據(jù)不同輸入和任務(wù)的需求,自適應(yīng)地調(diào)整各個并行流的權(quán)重,從而實現(xiàn)更優(yōu)的推理性能。

與傳統(tǒng)擴展策略對比

為了更清晰地展示 PARSCALE 的優(yōu)勢,我們可以將其與傳統(tǒng)的參數(shù)擴展和推理時間擴展策略進行對比。

傳統(tǒng)參數(shù)擴展策略,如密集參數(shù)擴展(Dense Scaling)和專家混合擴展(MoE Scaling),雖然能夠通過增加模型參數(shù)來提升性能,但卻伴隨著高內(nèi)存需求。例如,Dense Scaling 隨著參數(shù)的增加,內(nèi)存占用呈線性增長,這對于邊緣設(shè)備來說是難以承受的。而 MoE Scaling 雖然在一定程度上降低了內(nèi)存需求,但仍面臨著高內(nèi)存占用的問題,且訓(xùn)練成本相對較高。

推理時間擴展策略則通過增加推理時間來提升模型的推理能力。例如,OpenAI 探索的推理時間擴展方法,通過擴增推理 token 數(shù)量來增強模型的推理能力,但這種方法通常需要大量的特定訓(xùn)練數(shù)據(jù),并且會顯著增加推理延遲。對于實時性要求較高的應(yīng)用場景,這種高延遲是難以接受的。

相比之下,PARSCALE 在推理時間、推理空間和訓(xùn)練成本等方面展現(xiàn)出獨特的優(yōu)勢。PARSCALE 的推理時間隨著 P 的增加而適度增長,但在小批量場景下,其延遲增加幅度遠低于參數(shù)擴展策略。在推理空間方面,PARSCALE 的內(nèi)存占用僅略有增加,遠低于參數(shù)擴展策略。此外,PARSCALE 的訓(xùn)練成本相對較低,且不需要依賴特定的訓(xùn)練數(shù)據(jù)或策略,具有更廣泛的適用性。

這些優(yōu)勢的背后,源于 PARSCALE 對計算資源的高效利用和對模型結(jié)構(gòu)的創(chuàng)新設(shè)計。通過并行計算,PARSCALE 能夠在相同的計算資源下完成更多的推理任務(wù),從而提升了推理效率。同時,由于參數(shù)規(guī)模沒有顯著增加,模型的內(nèi)存占用和訓(xùn)練成本得以有效控制,使其在資源受限的環(huán)境中更具優(yōu)勢。

圖片

 主流大語言模型擴展策略的比較

上表對比了主流的 LLM 擴展策略,包括傳統(tǒng)的參數(shù)擴展(Dense Scaling 和 MoE Scaling)、推理時間擴展和 PARSCALE。從表中可以看出,PARSCALE 在推理時間和推理空間上的表現(xiàn)優(yōu)于參數(shù)擴展,且訓(xùn)練成本較低,適用場景更廣泛。

理論基礎(chǔ)與 scaling law

理論推導(dǎo)

PARSCALE 的理論基礎(chǔ)源于對 Chinchilla scaling law 的擴展和深化。Chinchilla scaling law 描述了語言模型的損失 L 與其參數(shù)數(shù)量 N 之間的關(guān)系,表明在模型收斂后,損失 L 可以表示為:

在推導(dǎo) PARSCALE 的損失函數(shù)表達式時,基于以下數(shù)學(xué)原理和步驟:

通過這些步驟,可以得出 PARSCALE 的損失函數(shù)表達式,為后續(xù)的實驗驗證提供了理論基礎(chǔ)。

參數(shù)解釋與影響分析

為了直觀地展示這些參數(shù)對模型性能的影響,研究者繪制了參數(shù)變化與模型性能關(guān)系圖。例如,在 Stack-V2 數(shù)據(jù)集上,隨著 P 的增加,模型的損失逐漸降低,且在較小的 P 值范圍內(nèi),損失降低幅度較大。這表明在實際應(yīng)用中,適當(dāng)增加  值能夠顯著提升模型性能,但當(dāng) P 值增大到一定程度后,性能提升的幅度會逐漸減小。因此,在設(shè)計模型時,需要根據(jù)具體的應(yīng)用場景和資源限制,合理選擇 P 值以達到性能和成本的平衡。

實驗驗證與結(jié)果分析

實驗設(shè)計與設(shè)置

為了驗證 PARSCALE 的有效性,研究員在 Stack-V2(Python 子集)和 Pile 語料庫上進行了大規(guī)模預(yù)訓(xùn)練實驗。實驗中,模型參數(shù)范圍從 5 億到 44 億不等,同時并行流數(shù)量 P 從 1 變化到 8。訓(xùn)練數(shù)據(jù)規(guī)模固定為 420 億 tokens,以確保實驗結(jié)果的可比性。

選擇 Stack-V2(Python 子集)和 Pile 語料庫作為實驗數(shù)據(jù)集的原因在于它們的多樣性和代表性。Stack-V2(Python 子集)主要包含代碼相關(guān)的內(nèi)容,能夠有效評估模型在代碼理解和生成任務(wù)上的性能。而 Pile 語料庫則涵蓋了多種領(lǐng)域的文本數(shù)據(jù),適用于評估模型在通用語言任務(wù)上的表現(xiàn)。通過在這兩個數(shù)據(jù)集上的實驗,我們可以全面評估 PARSCALE 在不同任務(wù)類型上的性能。

在訓(xùn)練過程中,采用了批量大小為 1024 和序列長度為 2048 的設(shè)置,訓(xùn)練步數(shù)總計 20K 步。對于 P>1 的模型,在輸入變換和輸出聚合部分引入了額外的參數(shù),而 P=1 的模型則保持與現(xiàn)有架構(gòu)一致,以確保實驗的公平性。所有實驗均使用 Qwen-2.5 的密集架構(gòu)和分詞器,以統(tǒng)一實驗條件。

這些精心設(shè)計的實驗設(shè)置,目的是全面評估 PARSCALE 在不同參數(shù)規(guī)模和并行流數(shù)量下的性能表現(xiàn),為后續(xù)的分析提供可靠的數(shù)據(jù)支持。

實驗結(jié)果呈現(xiàn)

實驗結(jié)果通過圖表和表格的形式直觀地展示出來,揭示了不同參數(shù)組合下的訓(xùn)練損失、驗證損失以及下游任務(wù)性能指標(biāo)。

在 Stack-V2-Python 數(shù)據(jù)集上,隨著 P 的增加,模型的損失逐漸降低。例如,對于 1.6B 參數(shù)的模型,當(dāng) P 從 1 增加到 8 時,損失從 1.0817 降低到 1.0383,性能提升顯著。同樣,在 Pile 數(shù)據(jù)集上,P 的增加也帶來了類似的損失降低趨勢。這表明 PARSCALE 能夠有效地利用并行計算來提升模型性能。

圖片

圖片

在420億個 tokens上訓(xùn)練的、按參數(shù)規(guī)模和并行流數(shù)量P進行擴展的大型語言模型的損失

上圖展示了在 Stack-V2(Python 子集)和 Pile 語料庫上,不同參數(shù)規(guī)模和并行流數(shù)量 P 的模型的訓(xùn)練損失。通過擬合的 scaling law 曲線,可以觀察到 PARSCALE 的損失與參數(shù)擴展之間的關(guān)系,驗證了理論推導(dǎo)的正確性。

在下游任務(wù)性能方面,PARSCALE 同樣表現(xiàn)出色。以代碼生成任務(wù)為例,在 HumanEval 和 MBPP 數(shù)據(jù)集上,隨著 P 的增加,模型的 Pass@1 和 Pass@10 指標(biāo)均呈現(xiàn)出明顯的提升趨勢。例如,在 HumanEval 數(shù)據(jù)集上,1.6B 參數(shù)的模型在 P=8 時的 Pass@1 達到 18.3%,相比 P=1 時的 18.3% 保持穩(wěn)定,而在 MBPP 數(shù)據(jù)集上,P=8 時的 Pass@1 達到 45.5%,相比 P=1 時的 36.0% 提升了近 10 個百分點。這表明 PARSCALE 在代碼生成任務(wù)上具有顯著的優(yōu)勢。

圖片

在使用 Stack-V2-Python 數(shù)據(jù)集進行預(yù)訓(xùn)練后,兩個代碼生成任務(wù) HumanEval(+) 和 MBPP(+) 的平均性能(%)

上表展示了在 Stack-V2-Python 數(shù)據(jù)集上預(yù)訓(xùn)練后的代碼生成任務(wù)性能。隨著 P 的增加,模型在 HumanEval 和 MBPP 數(shù)據(jù)集上的性能顯著提升,驗證了 PARSCALE 在代碼生成任務(wù)上的優(yōu)勢。

對于通用任務(wù),如 MMLU 數(shù)據(jù)集,PARSCALE 也展現(xiàn)出了良好的性能提升。例如,4.4B 參數(shù)的模型在 P = 8 時的平均性能達到 59.6%,相比$ P = 1 ¥時的 57.2% 提升了 2.4 個百分點。這些結(jié)果表明,PARSCALE 不僅在代碼生成任務(wù)上表現(xiàn)出色,還能在通用任務(wù)上帶來顯著的性能提升。

圖片

在Pile數(shù)據(jù)集上預(yù)訓(xùn)練后,六個通用lm-evaluation-harness任務(wù)的平均表現(xiàn)(%)

上表展示了在 Pile 數(shù)據(jù)集上預(yù)訓(xùn)練后的通用任務(wù)性能。隨著  的增加,模型在 MMLU 等任務(wù)上的性能顯著提升,進一步驗證了 PARSCALE 的有效性。

通過這些實驗結(jié)果,我們可以清晰地看到 PARSCALE 在不同實驗條件下的性能優(yōu)勢和特點。無論是訓(xùn)練損失、驗證損失還是下游任務(wù)性能指標(biāo),PARSCALE 都展現(xiàn)出了隨著 P 增加而性能提升的趨勢,驗證了其理論基礎(chǔ)的正確性和有效性。

推理成本分析

在推理成本方面,PARSCALE 與參數(shù)擴展策略相比,展現(xiàn)出顯著的優(yōu)勢。從內(nèi)存占用的角度來看,PARSCALE 在不同批量大小下的內(nèi)存占用遠低于參數(shù)擴展策略。例如,對于 1.6B 參數(shù)的模型,當(dāng)擴展到  時,PARSCALE 的內(nèi)存增加僅為參數(shù)擴展策略的 1/22。這意味著在相同的內(nèi)存條件下,PARSCALE 能夠支持更多的模型部署,或者在更低的硬件成本下實現(xiàn)相近的性能。

在延遲方面,PARSCALE 在小批量場景下表現(xiàn)出色。由于其并行計算的特性,PARSCALE 能夠充分利用 GPU 的計算資源,將內(nèi)存瓶頸轉(zhuǎn)化為計算瓶頸。因此,在小批量場景下,PARSCALE 的延遲增加幅度遠低于參數(shù)擴展策略。例如,在批量大小為 1 時,PARSCALE 的延遲增加僅為參數(shù)擴展策略的 1/6。這種低延遲特性使得 PARSCALE 在對實時性要求較高的應(yīng)用場景中具有巨大的優(yōu)勢,如智能手機和智能汽車等邊緣設(shè)備上的實時交互應(yīng)用。

圖片

模型容量(通過損失值表示)與推理時空成本成比例關(guān)系,涉及三個參數(shù)(16億、28億和44億)以及批量大小 ∈ {1, 2, 4, 8}

上圖展示了模型容量(以損失表示)在推理空間時間成本上的變化,涵蓋了三種參數(shù)規(guī)模(1.6B、2.8B 和 4.4B)和四種批量大小(1、2、4、8)。藍色箭頭表示參數(shù)擴展,灰色箭頭表示并行擴展。結(jié)果表明,PARSCALE 在推理效率方面具有顯著優(yōu)勢,尤其是在小批量場景下。

通過與實際應(yīng)用場景相結(jié)合,我們可以進一步強調(diào) PARSCALE 在低資源邊緣部署場景中的巨大潛力和實際應(yīng)用價值。它不僅能夠有效降低模型的推理成本,還能在資源受限的環(huán)境中實現(xiàn)高性能的推理服務(wù),為 LLM 的廣泛應(yīng)用提供了新的可能性。

生產(chǎn)級訓(xùn)練驗證

兩階段訓(xùn)練策略

為了降低訓(xùn)練成本并驗證 PARSCALE 在大規(guī)模數(shù)據(jù)訓(xùn)練中的有效性,研究者提出了一種兩階段訓(xùn)練策略。

在第一階段,采用傳統(tǒng)的預(yù)訓(xùn)練方法,使用 1T tokens 的數(shù)據(jù)進行訓(xùn)練。這一階段的目標(biāo)是利用大量的數(shù)據(jù)為模型提供基礎(chǔ)的語言理解和生成能力。訓(xùn)練過程中,使用 Warmup Stable Decay(WSD)學(xué)習(xí)率調(diào)度策略,初始學(xué)習(xí)率為 3e-4,經(jīng)過 2K 步的熱身階段后,保持學(xué)習(xí)率穩(wěn)定,以確保模型能夠充分學(xué)習(xí)數(shù)據(jù)中的知識。

在第二階段,引入 PARSCALE 技術(shù),僅使用 20B tokens 的數(shù)據(jù)進行訓(xùn)練。這一階段的重點是通過并行計算來進一步提升模型的性能。降低了學(xué)習(xí)率,從 3e-4 線性衰減到 1e-5,以避免對模型參數(shù)造成過大的擾動。同時,在這一階段引入了  種不同的可學(xué)習(xí)變換,并動態(tài)聚合輸出,以增強模型的推理能力。

兩階段訓(xùn)練策略中各階段的訓(xùn)練數(shù)據(jù)構(gòu)成和學(xué)習(xí)率調(diào)度的具體方法如下:

  • 第一階段 :

     訓(xùn)練數(shù)據(jù) :使用 1T tokens 的通用數(shù)據(jù),包括 370B 一般文本數(shù)據(jù)、80B 數(shù)學(xué)數(shù)據(jù)和 50B 代碼數(shù)據(jù)。

     學(xué)習(xí)率調(diào)度 :采用 WSD 策略,初始學(xué)習(xí)率為 3e-4,經(jīng)過 2K 步熱身階段后,保持學(xué)習(xí)率穩(wěn)定。

     超參數(shù)設(shè)置 :批量大小為 1024,序列長度為 2048。

  • 第二階段 :

        訓(xùn)練數(shù)據(jù) :使用 20B tokens 的數(shù)據(jù),增加數(shù)學(xué)和代碼數(shù)據(jù)的比例,最終包括 7B 一般文本數(shù)據(jù)、7B 數(shù)學(xué)數(shù)據(jù)和 7B Stack-Python-Edu 數(shù)據(jù)。

        學(xué)習(xí)率調(diào)度 :學(xué)習(xí)率從 3e-4 線性衰減到 1e-5。

        超參數(shù)設(shè)置 :批量大小為 1024,序列長度為 2048。

通過展示損失曲線圖,我們可以清晰地看到兩階段訓(xùn)練策略的效果。在第二階段的初始階段,由于引入了隨機初始化的參數(shù),P > 1 的模型損失略高于 P = 1 的模型。然而,隨著訓(xùn)練的進行,模型迅速適應(yīng)了這些新參數(shù),并在處理少量數(shù)據(jù)后(約 0.0002T tokens),損失趨于穩(wěn)定并逐漸降低。這表明兩階段訓(xùn)練策略能夠快速提升模型性能,并且具有較強的適應(yīng)性。

圖片

兩階段訓(xùn)練的損失,使用權(quán)重為0.95的指數(shù)移動平均進行平滑

上圖展示了兩階段訓(xùn)練策略的損失曲線,使用 0.95 的指數(shù)移動平均進行平滑處理。從圖中可以看出,第二階段訓(xùn)練初期,P >1 的模型損失略高于 P=1 的模型,但隨著訓(xùn)練的進行,損失迅速降低并趨于穩(wěn)定,驗證了兩階段訓(xùn)練策略的有效性。

此外,研究員還發(fā)現(xiàn),在訓(xùn)練后期,P 較大的模型(如 P=8)能夠逐漸拉開與 P 較小的模型(如 P=4 )之間的差距。這進一步證明了 PARSCALE 在大規(guī)模數(shù)據(jù)訓(xùn)練中的有效性,以及其隨著 P 增加而性能提升的趨勢。

下游任務(wù)性能表現(xiàn)

以 1.8B 模型為例,兩階段訓(xùn)練后在多個下游任務(wù)上的性能表現(xiàn)顯著提升。

在 7 個通用任務(wù)中,隨著 P 的增加,模型的平均性能呈現(xiàn)出穩(wěn)步提升的趨勢。例如,在 MMLU 任務(wù)上,P=8 時的性能達到 58.1%,相比 p=1 時的 55.0% 提升了 3.1 個百分點。在 3 個數(shù)學(xué)任務(wù)中,PARSCALE 的優(yōu)勢更為明顯。以 GSM8K 任務(wù)為例,P=8 時的性能達到 34% 的相對提升,相比 P=1 時的 28.7% 提升了 5.3 個百分點。這表明 PARSCALE 在數(shù)學(xué)推理任務(wù)上具有顯著的優(yōu)勢,能夠有效提升模型的推理能力。

在 8 個編碼任務(wù)中,PARSCALE 同樣展現(xiàn)出了良好的性能提升。例如,在 HumanEval 任務(wù)上,P=8 時的 Pass@1 達到 18.9%,相比 p=1 時的 12.8% 提升了 6.1 個百分點。這些結(jié)果表明,PARSCALE 在編碼任務(wù)上能夠顯著提升模型的性能,為代碼生成等應(yīng)用場景提供了更強的支持。

特別是對于推理密集型任務(wù),如 GSM8K 等,PARSCALE 的性能提升更為顯著。例如,在 GSM8K 任務(wù)上,P=8 時的性能達到 38.4%,相比 P=1 時的 28.7% 提升了 9.7 個百分點。這表明 PARSCALE 在處理復(fù)雜的推理任務(wù)時,能夠充分發(fā)揮其并行計算的優(yōu)勢,顯著提升模型的推理能力和任務(wù)性能。

圖片

在使用兩階段策略從零開始訓(xùn)練1T tokens后,1.8B模型的性能對比

上表展示了使用兩階段策略從頭開始訓(xùn)練的 1.8B 模型的性能比較。結(jié)果表明,隨著 P 的增加,模型在多個下游任務(wù)上的性能顯著提升,驗證了兩階段訓(xùn)練策略的有效性。

指令調(diào)優(yōu)與應(yīng)用

對兩階段訓(xùn)練得到的模型進一步進行指令調(diào)優(yōu),PARSCALE 在指令遵循任務(wù)中的表現(xiàn)也得到了顯著提升。

以 IFEval 基準測試為例,隨著 P 的增加,模型的性能呈現(xiàn)出明顯的提升趨勢。例如,P=8 時的性能達到 59.5%,相比 P=1 時的 54.1% 提升了 5.4 個百分點。這表明 PARSCALE 在指令遵循任務(wù)中具有顯著的優(yōu)勢,能夠有效提升模型對指令的理解和執(zhí)行能力。

在調(diào)優(yōu)過程中,發(fā)現(xiàn) PARSCALE 的動態(tài)加權(quán)平均機制能夠根據(jù)不同的任務(wù)和輸入,靈活地調(diào)整各個并行流的權(quán)重。這種自適應(yīng)的調(diào)整能力使得模型能夠在不同的任務(wù)中充分發(fā)揮各個并行流的優(yōu)勢,從而實現(xiàn)性能的全面提升。此外,PARSCALE 的并行計算特性使得模型在處理指令任務(wù)時能夠更高效地利用計算資源,進一步提升了推理效率。

通過這些實驗結(jié)果,我們可以看到 PARSCALE 在指令調(diào)優(yōu)中的顯著優(yōu)勢。它不僅能夠提升模型的性能,還能在實際應(yīng)用中提供更高效、更準確的服務(wù),為指令遵循任務(wù)的發(fā)展提供了新的技術(shù)支持。

圖片

不同指令模型性能的比較,其中少樣本示例被視為多輪對話

上表展示了不同指令模型的性能比較,其中將少量樣本示例視為多輪對話。結(jié)果表明,PARSCALE 在指令遵循任務(wù)中表現(xiàn)優(yōu)異,隨著 P 的增加,模型性能顯著提升。

在現(xiàn)成預(yù)訓(xùn)練模型中的應(yīng)用驗證

持續(xù)預(yù)訓(xùn)練與參數(shù)高效微調(diào)

為了驗證 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的有效性,以 Qwen-2.5(3B)模型為例,進行了持續(xù)預(yù)訓(xùn)練和參數(shù)高效微調(diào)(PEFT)實驗。

在持續(xù)預(yù)訓(xùn)練方面,在 Stack-V2(Python)和 Pile 數(shù)據(jù)集上對 Qwen-2.5 模型進行了進一步訓(xùn)練。通過引入 PARSCALE 的并行計算機制,模型在這些數(shù)據(jù)集上的性能得到了顯著提升。例如,在 Stack-V2(Python)數(shù)據(jù)集上,經(jīng)過持續(xù)預(yù)訓(xùn)練后,模型的訓(xùn)練損失顯著降低,表明其在代碼理解和生成方面的能力得到了增強。

在參數(shù)高效微調(diào)(PEFT)方面,僅對 PARSCALE 引入的參數(shù)進行微調(diào),而凍結(jié)了模型的主體權(quán)重。實驗結(jié)果表明,即使在凍結(jié)主體權(quán)重的情況下,PARSCALE 仍然能夠顯著提升模型的性能。例如,在 Stack-V2(Python)數(shù)據(jù)集上,經(jīng)過 PEFT 后,模型在代碼生成任務(wù)上的性能提升了 8.5 個百分點。這表明 PARSCALE 的并行計算機制能夠有效地利用少量的訓(xùn)練數(shù)據(jù)來提升模型的性能,具有很強的適應(yīng)性和靈活性。

此外,動態(tài)并行擴展的靈活性和潛力也得到了充分展示。在不同應(yīng)用場景中,我們可以靈活切換并行流數(shù)量 P,以適應(yīng)不同的吞吐量和模型能力需求。例如,在高吞吐量的場景中,我們可以增加 P 值以提升模型的推理能力;而在低資源的場景中,我們可以減少 P 值以降低內(nèi)存占用和推理延遲。這種靈活性使得 PARSCALE 能夠在多種應(yīng)用場景中發(fā)揮其優(yōu)勢,為模型的實際部署提供了更多的選擇。

實驗結(jié)果對比

在持續(xù)預(yù)訓(xùn)練和 PEFT 實驗中,研究員通過訓(xùn)練損失圖和代碼生成性能指標(biāo)對 PARSCALE 的效果進行了對比分析。

在持續(xù)預(yù)訓(xùn)練過程中,訓(xùn)練損失圖顯示,隨著訓(xùn)練的進行,PARSCALE 模型的損失逐漸降低,并且在相同的訓(xùn)練數(shù)據(jù)量下,P 較大的模型損失更低。這表明 PARSCALE 能夠更有效地利用訓(xùn)練數(shù)據(jù)來提升模型性能。

在代碼生成性能方面,經(jīng)過 PEFT 后,PARSCALE 模型在 HumanEval 和 MBPP 等基準測試中的表現(xiàn)顯著提升。例如,在 HumanEval 數(shù)據(jù)集上,P = 8 時的 Pass@1 達到 25.0%,相比 P = 1 時的 18.9% 提升了 6.1 個百分點。這些結(jié)果表明,PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的應(yīng)用是有效的,能夠顯著提升模型的代碼生成能力。

圖片

圖片

圖片

(a)(b) 在兩個數(shù)據(jù)集上對Qwen-2.5-3B模型進行持續(xù)預(yù)訓(xùn)練的損失情況。 (c) 在Stack-V2(Python)上微調(diào)后的代碼生成性能。

上圖(a)和(b)展示了在 Stack-V2(Python)和 Pile 數(shù)據(jù)集上持續(xù)預(yù)訓(xùn)練 Qwen-2.5-3B 模型的損失曲線。圖 6(c)則展示了在 Stack-V2(Python)數(shù)據(jù)集上進行參數(shù)高效微調(diào)后的代碼生成性能。這些圖表驗證了 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的有效性。

通過這些實驗結(jié)果,我們可以看到 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的巨大潛力。它不僅能夠提升模型的性能,還能在實際應(yīng)用中提供更靈活的部署方案,為模型的廣泛應(yīng)用提供了有力支持。

相關(guān)工作、討論、總結(jié)

與推理時間擴展和模型集成的關(guān)系

PARSCALE 與推理時間擴展和模型集成等領(lǐng)域的聯(lián)系與區(qū)別,進一步凸顯了其獨特價值。

推理時間擴展策略主要通過增加推理時間來提升模型的推理能力。例如,OpenAI 的推理時間擴展方法通過擴增推理 token 數(shù)量,讓模型在推理階段進行更多的計算,從而提升推理性能。然而,這種方法通常需要大量的特定訓(xùn)練數(shù)據(jù),并且會顯著增加推理延遲。相比之下,PARSCALE 在推理階段的延遲增加幅度較小,且不需要依賴特定的訓(xùn)練數(shù)據(jù),具有更廣泛的適用性和更高的推理效率。

模型集成是一種通過結(jié)合多個模型的預(yù)測結(jié)果來提升性能的方法。傳統(tǒng)的模型集成方法通常不共享參數(shù),或者僅部分共享參數(shù)。例如,Monte Carlo dropout 通過在推理階段應(yīng)用不同的隨機 dropout 遮罩來生成多個預(yù)測結(jié)果,然后進行集成。而 PARSCALE 則是在保持參數(shù)規(guī)模幾乎不變的情況下,通過并行計算來實現(xiàn)模型集成的效果。它利用 P 種不同的可學(xué)習(xí)變換和動態(tài)加權(quán)平均機制,使得各個并行流之間既共享大部分參數(shù),又能保持一定的差異性。這種設(shè)計不僅降低了模型集成的內(nèi)存占用和訓(xùn)練成本,還提升了推理效率。

PARSCALE 與推理時間擴展和模型集成之間也存在協(xié)同作用的可能性。例如,可以將 PARSCALE 與推理時間擴展相結(jié)合,在推理階段同時利用并行計算和序列計算來進一步提升模型性能?;蛘?,可以將 PARSCALE 與其他模型集成方法相結(jié)合,構(gòu)建更具魯棒性和性能的模型系統(tǒng)。這些協(xié)同作用的探索將進一步拓展 PARSCALE 的研究視野和應(yīng)用前景。

對模型容量本質(zhì)的思考

PARSCALE 的研究成果引發(fā)了我們對模型容量本質(zhì)的深入思考。傳統(tǒng)上,模型容量通常被認為是參數(shù)數(shù)量和計算量的綜合體現(xiàn)。然而,PARSCALE 的研究表明,模型容量可能更多地取決于計算量,而非單純的參數(shù)數(shù)量。

在 PARSCALE 中,通過增加并行計算次數(shù) P,在幾乎不增加參數(shù)數(shù)量的情況下,顯著提升了模型的性能。例如,在 Stack-V2 數(shù)據(jù)集上,當(dāng) P 從 1 增加到 8 時,1.6B 參數(shù)的模型性能與 4.4B 參數(shù)的模型相當(dāng)。這說明,通過合理的計算擴展,即使在參數(shù)規(guī)模較小的情況下,模型也能夠達到較高的性能水平。

這種對模型容量的新理解,為我們未來的模型設(shè)計和擴展策略提供了有益的啟示。它提醒我們在追求更大參數(shù)規(guī)模的同時,不應(yīng)忽視計算量對模型性能的提升作用。通過優(yōu)化計算結(jié)構(gòu)和提升計算效率,我們可以在有限的資源下實現(xiàn)更強大的模型性能,為 AI 技術(shù)的發(fā)展注入新的動力。

總結(jié)關(guān)鍵發(fā)現(xiàn)

PARSCALE 作為一種新型的語言模型擴展范式,在多個方面展現(xiàn)出了顯著的優(yōu)勢和巨大的潛力。

  • 性能提升 :通過增加并行計算次數(shù) P,PARSCALE 能夠顯著提升模型在各種任務(wù)上的性能。例如,在代碼生成任務(wù)上,P = 8 時的性能相比 P = 1 時提升了近 10 個百分點;在數(shù)學(xué)推理任務(wù)上,性能提升幅度更是高達 34%。
  • 推理效率 :PARSCALE 在推理效率方面表現(xiàn)出色。與參數(shù)擴展策略相比,PARSCALE 在內(nèi)存占用和推理延遲方面均具有顯著優(yōu)勢。在小批量場景下,其延遲增加幅度僅為參數(shù)擴展策略的 1/6,內(nèi)存占用增加幅度僅為 1/22。
  • 訓(xùn)練成本 :PARSCALE 的訓(xùn)練成本相對較低。通過兩階段訓(xùn)練策略,我們能夠在處理少量訓(xùn)練數(shù)據(jù)的情況下,快速提升模型性能,降低了訓(xùn)練成本。
  • 適用場景廣泛 :PARSCALE 適用于多種應(yīng)用場景,從代碼生成到通用任務(wù),從數(shù)學(xué)推理到指令遵循任務(wù),均展現(xiàn)出了良好的性能提升。其動態(tài)并行擴展的靈活性使得模型能夠適應(yīng)不同的吞吐量和資源限制需求。

這些關(guān)鍵發(fā)現(xiàn)表明,PARSCALE 不僅能夠有效解決當(dāng)前 LLM 面臨的性能瓶頸和資源限制問題,還為未來智能模型的發(fā)展提供了一種全新的思路和技術(shù)途徑。

參考資料

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-02-21 13:20:00

2011-03-01 09:43:13

MapReduce架構(gòu)

2015-12-18 16:15:55

架構(gòu)新型計算模型

2016-12-26 16:46:12

2015-08-03 09:36:01

賽迪翻譯

2015-08-31 09:27:21

語言界面UI

2025-01-06 07:05:00

2015-03-23 12:29:56

2017-11-15 19:00:49

深度學(xué)習(xí)SoftmaxRNN語言模型

2022-01-10 17:32:40

勒索軟件攻擊數(shù)據(jù)泄露

2017-12-05 14:55:56

2015-04-17 15:23:15

2017-10-27 18:40:01

機器學(xué)習(xí)終身機器學(xué)習(xí)遷移學(xué)習(xí)

2010-01-21 16:24:02

C++語言

2015-05-08 17:47:00

Polycom

2017-03-13 11:30:39

2020-09-17 10:25:36

計算機系統(tǒng) 技術(shù)

2012-11-01 13:41:25

編程語言BasicPerl

2010-01-25 15:09:17

C++語言

2024-07-04 17:39:24

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精品久久一区 | 日韩免费看视频 | 欧美日韩国产中文 | 黄色毛片大全 | 午夜在线影院 | 97免费在线观看视频 | 欧美成人一区二区 | 国产精品激情 | 亚洲男人天堂av | 久久美国 | 亚洲精品成人在线 | 9久9久| 日本三级播放 | 成年人免费在线视频 | 国产亚洲欧美日韩精品一区二区三区 | 在线亚洲人成电影网站色www | 毛片一区二区三区 | 欧美精品在线一区二区三区 | 国产精品视频久久久 | 欧美aⅴ| 91在线视频免费观看 | 狠狠干网站 | 日韩久草 | 亚洲视频中文字幕 | 午夜电影福利 | 国产精品久久久久久中文字 | 国产一区二区在线免费观看 | 欧美综合一区二区 | 亚洲精品www | 日韩av成人在线观看 | 欧美精品二区三区 | 亚洲视频免费在线播放 | 婷婷免费视频 | 国产精品污www一区二区三区 | 精品一区二区免费视频 | 日本午夜精品 | 午夜天堂精品久久久久 | www312aⅴ欧美在线看 | 在线日韩欧美 | 国产精品综合一区二区 | 日韩欧美专区 |