成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<cite id="ckduv"><style id="ckduv"></style></cite>

<label id="ckduv"></label>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

并行擴展（Parallel Scaling）：一種新型語言模型擴展范式

作者：肆零柒 2025-05-22 04:00:00

我們來聊一項可以改變語言模型性能的技術(shù)——PARSCALE（Parallel Scaling）。如果有一種方法，能夠在不顯著增加模型參數(shù)的情況下，大幅提升模型的推理能力，同時還能顯著降低推理成本，那將是多么令人興奮的突破！PARSCALE 正是這樣一種技術(shù)，它通過并行計算，為大型語言模型（LLM）的擴展提供了一種全新的思路。

“ PARSCALE 作為一種新型的語言模型擴展范式，通過增加并行計算次數(shù) P，在保持參數(shù)規(guī)模幾乎不變的情況下，能夠顯著提升模型的推理能力?！?/span>

大家好，我是肆〇柒。今天，我們來聊一項可以改變語言模型性能的技術(shù)——PARSCALE（Parallel Scaling）。如果有一種方法，能夠在不顯著增加模型參數(shù)的情況下，大幅提升模型的推理能力，同時還能顯著降低推理成本，那將是多么令人興奮的突破！PARSCALE 正是這樣一種技術(shù)，它通過并行計算，為大型語言模型（LLM）的擴展提供了一種全新的思路。接下來，讓我們一起深入了解 PARSCALE，看看它是如何在保持參數(shù)規(guī)模幾乎不變的情況下，實現(xiàn)性能的飛躍的。

在當(dāng)下，LLM 的應(yīng)用場景不斷拓展，為我們的生活和工作帶來了前所未有的便利。然而，隨著模型規(guī)模的不斷擴大，LLM 在實際應(yīng)用中也面臨著一系列嚴峻的挑戰(zhàn)。

以參數(shù)擴展為例，像 DeepSeek-V3 這樣的模型，其參數(shù)規(guī)模已高達 672B，對內(nèi)存提出了極為苛刻的要求。這種高內(nèi)存需求使得模型在邊緣設(shè)備上的部署變得極為困難。想象一下，一臺智能手機或智能汽車，其內(nèi)存資源相對有限，如何能夠流暢運行如此龐大的模型？此外，推理時間擴展同樣帶來了高時間成本。例如，當(dāng)模型需要生成大量推理 token 時，即使是處理一個簡單的數(shù)學(xué)問題，也可能耗費數(shù)秒甚至數(shù)十秒的時間。這種延遲對于實時性要求較高的應(yīng)用場景來說，無疑是致命的。

這些問題嚴重限制了 LLM 在實際場景中的廣泛應(yīng)用，尤其是在智能手機、智能汽車和機器人等低資源邊緣設(shè)備上。例如，蘋果的 iPhone 14 系列手機，其內(nèi)存僅為 4GB 至 6GB，而運行一個 672B 參數(shù)的模型需要的內(nèi)存遠超此限制。同樣，特斯拉的 Autopilot 系統(tǒng)在處理實時駕駛決策時，無法承受高延遲的推理過程。模型的高性能與設(shè)備的低資源之間存在著巨大的矛盾，我們需要一種創(chuàng)新的解決方案。

PARSCALE 的價值與創(chuàng)新

在這樣的背景下，PARSCALE（Parallel Scaling）應(yīng)運而生。作為一種全新的語言模型擴展范式，PARSCALE 以其獨特的方式，為 LLM 的發(fā)展帶來了新的希望。

PARSCALE 的核心思想是在保持參數(shù)規(guī)模幾乎不變的情況下，通過增加并行計算來提升模型的推理能力。具體而言，它對輸入進行 P 種不同的可學(xué)習(xí)變換，然后并行地執(zhí)行模型的前向傳播，最后動態(tài)聚合這 P 個輸出。這種方法不僅能夠顯著增強模型的推理能力，還能有效降低推理成本。

與傳統(tǒng)的參數(shù)擴展和推理時間擴展相比，PARSCALE 在推理效率、訓(xùn)練成本和適用場景等方面展現(xiàn)出獨特的優(yōu)勢。例如，對于一個 1.6B 參數(shù)的模型，當(dāng)擴展到 P = 8 時，PARSCALE 僅需增加 22 倍的內(nèi)存，而參數(shù)擴展則需要增加 6 倍的內(nèi)存，并且在推理延遲方面，PARSCALE 也表現(xiàn)出色。這種高效性使得 LLM 在資源受限環(huán)境中的部署成為可能，為模型的實際應(yīng)用開辟了新的道路。

PARSCALE 的優(yōu)勢不僅體現(xiàn)在推理效率和成本上，還在于其對模型泛化能力的潛在提升。通過增加并行流數(shù)量 P，模型能夠在訓(xùn)練和推理過程中接觸到更多樣的輸入變換和輸出聚合方式，這有助于模型學(xué)習(xí)到更廣泛、更魯棒的特征表示，從而在面對不同領(lǐng)域和風(fēng)格的數(shù)據(jù)時表現(xiàn)得更加出色。

(1) 本文提出的并行擴展方法（PAR SCALE）的示意圖。(2) 在Stack-V2（Python子集）的420億個tokens上進行預(yù)訓(xùn)練模型的并行擴展法則。(3) 損失擴展曲線與推理成本的關(guān)系。結(jié)果是基于批量大小為{1, 2, 4, 8}和輸入+輸出tokens數(shù)為{128, 256, 512, 1024}的平均值。

如上圖所示，PARSCALE 通過增加并行流數(shù)量 P，在保持參數(shù)規(guī)模幾乎不變的情況下，顯著提升了模型的推理能力。上圖（1）展示了 PARSCALE 的工作原理，包括輸入變換、并行前向傳播和動態(tài)輸出聚合的過程。上圖（2）展示了在 Stack-V2 數(shù)據(jù)集上，不同參數(shù)規(guī)模和并行流數(shù)量 P 下的預(yù)訓(xùn)練模型的 scaling law。上圖（3）則展示了推理成本與損失的曲線關(guān)系，表明 PARSCALE 在推理效率方面的優(yōu)勢。

PARSCALE 核心概念

靈感來源與技術(shù)設(shè)想

PARSCALE 的靈感源于分類器自由引導(dǎo)（Classifier-free Guidance，CFG），這是一種在擴散模型中廣泛應(yīng)用的技術(shù)。在擴散模型中，CFG 通過兩次前向傳播來提升模型性能。它首先對輸入 x 進行正常前向傳播，得到第一個輸出；然后對輸入進行擾動（例如去除條件信息），得到第二個輸出；最后根據(jù)預(yù)設(shè)的對比規(guī)則，將這兩個輸出進行聚合。這種兩次計算的方式，使得模型能夠在推理階段獲得比單次前向傳播更優(yōu)的性能。

其中， w是一個預(yù)設(shè)的超參數(shù)，用于控制條件信息的影響程度。這種對比規(guī)則的設(shè)計使得模型能夠在條件化和無條件化的輸出之間找到平衡，從而提升生成結(jié)果的質(zhì)量。

PARSCALE 借鑒了 CFG 的核心思想，并進行了創(chuàng)新性的擴展。它不再局限于兩次前向傳播，而是通過 P 種不同的可學(xué)習(xí)變換對輸入進行處理，生成 P 個不同的輸入版本。這些變換后的輸入被并行地送入模型進行前向傳播，得到 P 個輸出。隨后，通過一個動態(tài)加權(quán)平均的方法，將這 P 個輸出聚合為一個最終輸出。這個動態(tài)加權(quán)平均的過程，利用一個多層感知機（MLP）將多個輸出轉(zhuǎn)換為聚合權(quán)重，從而實現(xiàn)對不同輸出的動態(tài)融合。

這種動態(tài)加權(quán)平均機制使得模型能夠根據(jù)不同輸入和任務(wù)的需求，自適應(yīng)地調(diào)整各個并行流的權(quán)重，從而實現(xiàn)更優(yōu)的推理性能。

與傳統(tǒng)擴展策略對比

為了更清晰地展示 PARSCALE 的優(yōu)勢，我們可以將其與傳統(tǒng)的參數(shù)擴展和推理時間擴展策略進行對比。

傳統(tǒng)參數(shù)擴展策略，如密集參數(shù)擴展（Dense Scaling）和專家混合擴展（MoE Scaling），雖然能夠通過增加模型參數(shù)來提升性能，但卻伴隨著高內(nèi)存需求。例如，Dense Scaling 隨著參數(shù)的增加，內(nèi)存占用呈線性增長，這對于邊緣設(shè)備來說是難以承受的。而 MoE Scaling 雖然在一定程度上降低了內(nèi)存需求，但仍面臨著高內(nèi)存占用的問題，且訓(xùn)練成本相對較高。

推理時間擴展策略則通過增加推理時間來提升模型的推理能力。例如，OpenAI 探索的推理時間擴展方法，通過擴增推理 token 數(shù)量來增強模型的推理能力，但這種方法通常需要大量的特定訓(xùn)練數(shù)據(jù)，并且會顯著增加推理延遲。對于實時性要求較高的應(yīng)用場景，這種高延遲是難以接受的。

相比之下，PARSCALE 在推理時間、推理空間和訓(xùn)練成本等方面展現(xiàn)出獨特的優(yōu)勢。PARSCALE 的推理時間隨著 P 的增加而適度增長，但在小批量場景下，其延遲增加幅度遠低于參數(shù)擴展策略。在推理空間方面，PARSCALE 的內(nèi)存占用僅略有增加，遠低于參數(shù)擴展策略。此外，PARSCALE 的訓(xùn)練成本相對較低，且不需要依賴特定的訓(xùn)練數(shù)據(jù)或策略，具有更廣泛的適用性。

這些優(yōu)勢的背后，源于 PARSCALE 對計算資源的高效利用和對模型結(jié)構(gòu)的創(chuàng)新設(shè)計。通過并行計算，PARSCALE 能夠在相同的計算資源下完成更多的推理任務(wù)，從而提升了推理效率。同時，由于參數(shù)規(guī)模沒有顯著增加，模型的內(nèi)存占用和訓(xùn)練成本得以有效控制，使其在資源受限的環(huán)境中更具優(yōu)勢。

主流大語言模型擴展策略的比較

上表對比了主流的 LLM 擴展策略，包括傳統(tǒng)的參數(shù)擴展（Dense Scaling 和 MoE Scaling）、推理時間擴展和 PARSCALE。從表中可以看出，PARSCALE 在推理時間和推理空間上的表現(xiàn)優(yōu)于參數(shù)擴展，且訓(xùn)練成本較低，適用場景更廣泛。

理論基礎(chǔ)與 scaling law

理論推導(dǎo)

PARSCALE 的理論基礎(chǔ)源于對 Chinchilla scaling law 的擴展和深化。Chinchilla scaling law 描述了語言模型的損失 L 與其參數(shù)數(shù)量 N 之間的關(guān)系，表明在模型收斂后，損失 L 可以表示為：

在推導(dǎo) PARSCALE 的損失函數(shù)表達式時，基于以下數(shù)學(xué)原理和步驟：

通過這些步驟，可以得出 PARSCALE 的損失函數(shù)表達式，為后續(xù)的實驗驗證提供了理論基礎(chǔ)。

參數(shù)解釋與影響分析

為了直觀地展示這些參數(shù)對模型性能的影響，研究者繪制了參數(shù)變化與模型性能關(guān)系圖。例如，在 Stack-V2 數(shù)據(jù)集上，隨著 P 的增加，模型的損失逐漸降低，且在較小的 P 值范圍內(nèi)，損失降低幅度較大。這表明在實際應(yīng)用中，適當(dāng)增加值能夠顯著提升模型性能，但當(dāng) P 值增大到一定程度后，性能提升的幅度會逐漸減小。因此，在設(shè)計模型時，需要根據(jù)具體的應(yīng)用場景和資源限制，合理選擇 P 值以達到性能和成本的平衡。

實驗驗證與結(jié)果分析

實驗設(shè)計與設(shè)置

為了驗證 PARSCALE 的有效性，研究員在 Stack-V2（Python 子集）和 Pile 語料庫上進行了大規(guī)模預(yù)訓(xùn)練實驗。實驗中，模型參數(shù)范圍從 5 億到 44 億不等，同時并行流數(shù)量 P 從 1 變化到 8。訓(xùn)練數(shù)據(jù)規(guī)模固定為 420 億 tokens，以確保實驗結(jié)果的可比性。

選擇 Stack-V2（Python 子集）和 Pile 語料庫作為實驗數(shù)據(jù)集的原因在于它們的多樣性和代表性。Stack-V2（Python 子集）主要包含代碼相關(guān)的內(nèi)容，能夠有效評估模型在代碼理解和生成任務(wù)上的性能。而 Pile 語料庫則涵蓋了多種領(lǐng)域的文本數(shù)據(jù)，適用于評估模型在通用語言任務(wù)上的表現(xiàn)。通過在這兩個數(shù)據(jù)集上的實驗，我們可以全面評估 PARSCALE 在不同任務(wù)類型上的性能。

在訓(xùn)練過程中，采用了批量大小為 1024 和序列長度為 2048 的設(shè)置，訓(xùn)練步數(shù)總計 20K 步。對于 P>1 的模型，在輸入變換和輸出聚合部分引入了額外的參數(shù)，而 P=1 的模型則保持與現(xiàn)有架構(gòu)一致，以確保實驗的公平性。所有實驗均使用 Qwen-2.5 的密集架構(gòu)和分詞器，以統(tǒng)一實驗條件。

這些精心設(shè)計的實驗設(shè)置，目的是全面評估 PARSCALE 在不同參數(shù)規(guī)模和并行流數(shù)量下的性能表現(xiàn)，為后續(xù)的分析提供可靠的數(shù)據(jù)支持。

實驗結(jié)果呈現(xiàn)

實驗結(jié)果通過圖表和表格的形式直觀地展示出來，揭示了不同參數(shù)組合下的訓(xùn)練損失、驗證損失以及下游任務(wù)性能指標(biāo)。

在 Stack-V2-Python 數(shù)據(jù)集上，隨著 P 的增加，模型的損失逐漸降低。例如，對于 1.6B 參數(shù)的模型，當(dāng) P 從 1 增加到 8 時，損失從 1.0817 降低到 1.0383，性能提升顯著。同樣，在 Pile 數(shù)據(jù)集上，P 的增加也帶來了類似的損失降低趨勢。這表明 PARSCALE 能夠有效地利用并行計算來提升模型性能。

在420億個 tokens上訓(xùn)練的、按參數(shù)規(guī)模和并行流數(shù)量P進行擴展的大型語言模型的損失

上圖展示了在 Stack-V2（Python 子集）和 Pile 語料庫上，不同參數(shù)規(guī)模和并行流數(shù)量 P 的模型的訓(xùn)練損失。通過擬合的 scaling law 曲線，可以觀察到 PARSCALE 的損失與參數(shù)擴展之間的關(guān)系，驗證了理論推導(dǎo)的正確性。

在下游任務(wù)性能方面，PARSCALE 同樣表現(xiàn)出色。以代碼生成任務(wù)為例，在 HumanEval 和 MBPP 數(shù)據(jù)集上，隨著 P 的增加，模型的 Pass@1 和 Pass@10 指標(biāo)均呈現(xiàn)出明顯的提升趨勢。例如，在 HumanEval 數(shù)據(jù)集上，1.6B 參數(shù)的模型在 P=8 時的 Pass@1 達到 18.3%，相比 P=1 時的 18.3% 保持穩(wěn)定，而在 MBPP 數(shù)據(jù)集上，P=8 時的 Pass@1 達到 45.5%，相比 P=1 時的 36.0% 提升了近 10 個百分點。這表明 PARSCALE 在代碼生成任務(wù)上具有顯著的優(yōu)勢。

在使用 Stack-V2-Python 數(shù)據(jù)集進行預(yù)訓(xùn)練后，兩個代碼生成任務(wù) HumanEval(+) 和 MBPP(+) 的平均性能（%）

上表展示了在 Stack-V2-Python 數(shù)據(jù)集上預(yù)訓(xùn)練后的代碼生成任務(wù)性能。隨著 P 的增加，模型在 HumanEval 和 MBPP 數(shù)據(jù)集上的性能顯著提升，驗證了 PARSCALE 在代碼生成任務(wù)上的優(yōu)勢。

對于通用任務(wù)，如 MMLU 數(shù)據(jù)集，PARSCALE 也展現(xiàn)出了良好的性能提升。例如，4.4B 參數(shù)的模型在 P = 8 時的平均性能達到 59.6%，相比$ P = 1 ￥時的 57.2% 提升了 2.4 個百分點。這些結(jié)果表明，PARSCALE 不僅在代碼生成任務(wù)上表現(xiàn)出色，還能在通用任務(wù)上帶來顯著的性能提升。

在Pile數(shù)據(jù)集上預(yù)訓(xùn)練后，六個通用lm-evaluation-harness任務(wù)的平均表現(xiàn)（%）

上表展示了在 Pile 數(shù)據(jù)集上預(yù)訓(xùn)練后的通用任務(wù)性能。隨著的增加，模型在 MMLU 等任務(wù)上的性能顯著提升，進一步驗證了 PARSCALE 的有效性。

通過這些實驗結(jié)果，我們可以清晰地看到 PARSCALE 在不同實驗條件下的性能優(yōu)勢和特點。無論是訓(xùn)練損失、驗證損失還是下游任務(wù)性能指標(biāo)，PARSCALE 都展現(xiàn)出了隨著 P 增加而性能提升的趨勢，驗證了其理論基礎(chǔ)的正確性和有效性。

推理成本分析

在推理成本方面，PARSCALE 與參數(shù)擴展策略相比，展現(xiàn)出顯著的優(yōu)勢。從內(nèi)存占用的角度來看，PARSCALE 在不同批量大小下的內(nèi)存占用遠低于參數(shù)擴展策略。例如，對于 1.6B 參數(shù)的模型，當(dāng)擴展到時，PARSCALE 的內(nèi)存增加僅為參數(shù)擴展策略的 1/22。這意味著在相同的內(nèi)存條件下，PARSCALE 能夠支持更多的模型部署，或者在更低的硬件成本下實現(xiàn)相近的性能。

在延遲方面，PARSCALE 在小批量場景下表現(xiàn)出色。由于其并行計算的特性，PARSCALE 能夠充分利用 GPU 的計算資源，將內(nèi)存瓶頸轉(zhuǎn)化為計算瓶頸。因此，在小批量場景下，PARSCALE 的延遲增加幅度遠低于參數(shù)擴展策略。例如，在批量大小為 1 時，PARSCALE 的延遲增加僅為參數(shù)擴展策略的 1/6。這種低延遲特性使得 PARSCALE 在對實時性要求較高的應(yīng)用場景中具有巨大的優(yōu)勢，如智能手機和智能汽車等邊緣設(shè)備上的實時交互應(yīng)用。

模型容量（通過損失值表示）與推理時空成本成比例關(guān)系，涉及三個參數(shù)（16億、28億和44億）以及批量大小 ∈ {1, 2, 4, 8}

上圖展示了模型容量（以損失表示）在推理空間時間成本上的變化，涵蓋了三種參數(shù)規(guī)模（1.6B、2.8B 和 4.4B）和四種批量大小（1、2、4、8）。藍色箭頭表示參數(shù)擴展，灰色箭頭表示并行擴展。結(jié)果表明，PARSCALE 在推理效率方面具有顯著優(yōu)勢，尤其是在小批量場景下。

通過與實際應(yīng)用場景相結(jié)合，我們可以進一步強調(diào) PARSCALE 在低資源邊緣部署場景中的巨大潛力和實際應(yīng)用價值。它不僅能夠有效降低模型的推理成本，還能在資源受限的環(huán)境中實現(xiàn)高性能的推理服務(wù)，為 LLM 的廣泛應(yīng)用提供了新的可能性。

生產(chǎn)級訓(xùn)練驗證

兩階段訓(xùn)練策略

為了降低訓(xùn)練成本并驗證 PARSCALE 在大規(guī)模數(shù)據(jù)訓(xùn)練中的有效性，研究者提出了一種兩階段訓(xùn)練策略。

在第一階段，采用傳統(tǒng)的預(yù)訓(xùn)練方法，使用 1T tokens 的數(shù)據(jù)進行訓(xùn)練。這一階段的目標(biāo)是利用大量的數(shù)據(jù)為模型提供基礎(chǔ)的語言理解和生成能力。訓(xùn)練過程中，使用 Warmup Stable Decay（WSD）學(xué)習(xí)率調(diào)度策略，初始學(xué)習(xí)率為 3e-4，經(jīng)過 2K 步的熱身階段后，保持學(xué)習(xí)率穩(wěn)定，以確保模型能夠充分學(xué)習(xí)數(shù)據(jù)中的知識。

在第二階段，引入 PARSCALE 技術(shù)，僅使用 20B tokens 的數(shù)據(jù)進行訓(xùn)練。這一階段的重點是通過并行計算來進一步提升模型的性能。降低了學(xué)習(xí)率，從 3e-4 線性衰減到 1e-5，以避免對模型參數(shù)造成過大的擾動。同時，在這一階段引入了種不同的可學(xué)習(xí)變換，并動態(tài)聚合輸出，以增強模型的推理能力。

兩階段訓(xùn)練策略中各階段的訓(xùn)練數(shù)據(jù)構(gòu)成和學(xué)習(xí)率調(diào)度的具體方法如下：

第一階段 ：

訓(xùn)練數(shù)據(jù) ：使用 1T tokens 的通用數(shù)據(jù)，包括 370B 一般文本數(shù)據(jù)、80B 數(shù)學(xué)數(shù)據(jù)和 50B 代碼數(shù)據(jù)。

學(xué)習(xí)率調(diào)度 ：采用 WSD 策略，初始學(xué)習(xí)率為 3e-4，經(jīng)過 2K 步熱身階段后，保持學(xué)習(xí)率穩(wěn)定。

超參數(shù)設(shè)置 ：批量大小為 1024，序列長度為 2048。

第二階段 ：

訓(xùn)練數(shù)據(jù) ：使用 20B tokens 的數(shù)據(jù)，增加數(shù)學(xué)和代碼數(shù)據(jù)的比例，最終包括 7B 一般文本數(shù)據(jù)、7B 數(shù)學(xué)數(shù)據(jù)和 7B Stack-Python-Edu 數(shù)據(jù)。

學(xué)習(xí)率調(diào)度 ：學(xué)習(xí)率從 3e-4 線性衰減到 1e-5。

超參數(shù)設(shè)置 ：批量大小為 1024，序列長度為 2048。

通過展示損失曲線圖，我們可以清晰地看到兩階段訓(xùn)練策略的效果。在第二階段的初始階段，由于引入了隨機初始化的參數(shù)，P > 1 的模型損失略高于 P = 1 的模型。然而，隨著訓(xùn)練的進行，模型迅速適應(yīng)了這些新參數(shù)，并在處理少量數(shù)據(jù)后（約 0.0002T tokens），損失趨于穩(wěn)定并逐漸降低。這表明兩階段訓(xùn)練策略能夠快速提升模型性能，并且具有較強的適應(yīng)性。

兩階段訓(xùn)練的損失，使用權(quán)重為0.95的指數(shù)移動平均進行平滑

上圖展示了兩階段訓(xùn)練策略的損失曲線，使用 0.95 的指數(shù)移動平均進行平滑處理。從圖中可以看出，第二階段訓(xùn)練初期，P >1 的模型損失略高于 P=1 的模型，但隨著訓(xùn)練的進行，損失迅速降低并趨于穩(wěn)定，驗證了兩階段訓(xùn)練策略的有效性。

此外，研究員還發(fā)現(xiàn)，在訓(xùn)練后期，P 較大的模型（如 P=8）能夠逐漸拉開與 P 較小的模型（如 P=4 ）之間的差距。這進一步證明了 PARSCALE 在大規(guī)模數(shù)據(jù)訓(xùn)練中的有效性，以及其隨著 P 增加而性能提升的趨勢。

下游任務(wù)性能表現(xiàn)

以 1.8B 模型為例，兩階段訓(xùn)練后在多個下游任務(wù)上的性能表現(xiàn)顯著提升。

在 7 個通用任務(wù)中，隨著 P 的增加，模型的平均性能呈現(xiàn)出穩(wěn)步提升的趨勢。例如，在 MMLU 任務(wù)上，P=8 時的性能達到 58.1%，相比 p=1 時的 55.0% 提升了 3.1 個百分點。在 3 個數(shù)學(xué)任務(wù)中，PARSCALE 的優(yōu)勢更為明顯。以 GSM8K 任務(wù)為例，P=8 時的性能達到 34% 的相對提升，相比 P=1 時的 28.7% 提升了 5.3 個百分點。這表明 PARSCALE 在數(shù)學(xué)推理任務(wù)上具有顯著的優(yōu)勢，能夠有效提升模型的推理能力。

在 8 個編碼任務(wù)中，PARSCALE 同樣展現(xiàn)出了良好的性能提升。例如，在 HumanEval 任務(wù)上，P=8 時的 Pass@1 達到 18.9%，相比 p=1 時的 12.8% 提升了 6.1 個百分點。這些結(jié)果表明，PARSCALE 在編碼任務(wù)上能夠顯著提升模型的性能，為代碼生成等應(yīng)用場景提供了更強的支持。

特別是對于推理密集型任務(wù)，如 GSM8K 等，PARSCALE 的性能提升更為顯著。例如，在 GSM8K 任務(wù)上，P=8 時的性能達到 38.4%，相比 P=1 時的 28.7% 提升了 9.7 個百分點。這表明 PARSCALE 在處理復(fù)雜的推理任務(wù)時，能夠充分發(fā)揮其并行計算的優(yōu)勢，顯著提升模型的推理能力和任務(wù)性能。

在使用兩階段策略從零開始訓(xùn)練1T tokens后，1.8B模型的性能對比

上表展示了使用兩階段策略從頭開始訓(xùn)練的 1.8B 模型的性能比較。結(jié)果表明，隨著 P 的增加，模型在多個下游任務(wù)上的性能顯著提升，驗證了兩階段訓(xùn)練策略的有效性。

指令調(diào)優(yōu)與應(yīng)用

對兩階段訓(xùn)練得到的模型進一步進行指令調(diào)優(yōu)，PARSCALE 在指令遵循任務(wù)中的表現(xiàn)也得到了顯著提升。

以 IFEval 基準測試為例，隨著 P 的增加，模型的性能呈現(xiàn)出明顯的提升趨勢。例如，P=8 時的性能達到 59.5%，相比 P=1 時的 54.1% 提升了 5.4 個百分點。這表明 PARSCALE 在指令遵循任務(wù)中具有顯著的優(yōu)勢，能夠有效提升模型對指令的理解和執(zhí)行能力。

在調(diào)優(yōu)過程中，發(fā)現(xiàn) PARSCALE 的動態(tài)加權(quán)平均機制能夠根據(jù)不同的任務(wù)和輸入，靈活地調(diào)整各個并行流的權(quán)重。這種自適應(yīng)的調(diào)整能力使得模型能夠在不同的任務(wù)中充分發(fā)揮各個并行流的優(yōu)勢，從而實現(xiàn)性能的全面提升。此外，PARSCALE 的并行計算特性使得模型在處理指令任務(wù)時能夠更高效地利用計算資源，進一步提升了推理效率。

通過這些實驗結(jié)果，我們可以看到 PARSCALE 在指令調(diào)優(yōu)中的顯著優(yōu)勢。它不僅能夠提升模型的性能，還能在實際應(yīng)用中提供更高效、更準確的服務(wù)，為指令遵循任務(wù)的發(fā)展提供了新的技術(shù)支持。

不同指令模型性能的比較，其中少樣本示例被視為多輪對話

上表展示了不同指令模型的性能比較，其中將少量樣本示例視為多輪對話。結(jié)果表明，PARSCALE 在指令遵循任務(wù)中表現(xiàn)優(yōu)異，隨著 P 的增加，模型性能顯著提升。

在現(xiàn)成預(yù)訓(xùn)練模型中的應(yīng)用驗證

持續(xù)預(yù)訓(xùn)練與參數(shù)高效微調(diào)

為了驗證 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的有效性，以 Qwen-2.5（3B）模型為例，進行了持續(xù)預(yù)訓(xùn)練和參數(shù)高效微調(diào)（PEFT）實驗。

在持續(xù)預(yù)訓(xùn)練方面，在 Stack-V2（Python）和 Pile 數(shù)據(jù)集上對 Qwen-2.5 模型進行了進一步訓(xùn)練。通過引入 PARSCALE 的并行計算機制，模型在這些數(shù)據(jù)集上的性能得到了顯著提升。例如，在 Stack-V2（Python）數(shù)據(jù)集上，經(jīng)過持續(xù)預(yù)訓(xùn)練后，模型的訓(xùn)練損失顯著降低，表明其在代碼理解和生成方面的能力得到了增強。

在參數(shù)高效微調(diào)（PEFT）方面，僅對 PARSCALE 引入的參數(shù)進行微調(diào)，而凍結(jié)了模型的主體權(quán)重。實驗結(jié)果表明，即使在凍結(jié)主體權(quán)重的情況下，PARSCALE 仍然能夠顯著提升模型的性能。例如，在 Stack-V2（Python）數(shù)據(jù)集上，經(jīng)過 PEFT 后，模型在代碼生成任務(wù)上的性能提升了 8.5 個百分點。這表明 PARSCALE 的并行計算機制能夠有效地利用少量的訓(xùn)練數(shù)據(jù)來提升模型的性能，具有很強的適應(yīng)性和靈活性。

此外，動態(tài)并行擴展的靈活性和潛力也得到了充分展示。在不同應(yīng)用場景中，我們可以靈活切換并行流數(shù)量 P，以適應(yīng)不同的吞吐量和模型能力需求。例如，在高吞吐量的場景中，我們可以增加 P 值以提升模型的推理能力；而在低資源的場景中，我們可以減少 P 值以降低內(nèi)存占用和推理延遲。這種靈活性使得 PARSCALE 能夠在多種應(yīng)用場景中發(fā)揮其優(yōu)勢，為模型的實際部署提供了更多的選擇。

實驗結(jié)果對比

在持續(xù)預(yù)訓(xùn)練和 PEFT 實驗中，研究員通過訓(xùn)練損失圖和代碼生成性能指標(biāo)對 PARSCALE 的效果進行了對比分析。

在持續(xù)預(yù)訓(xùn)練過程中，訓(xùn)練損失圖顯示，隨著訓(xùn)練的進行，PARSCALE 模型的損失逐漸降低，并且在相同的訓(xùn)練數(shù)據(jù)量下，P 較大的模型損失更低。這表明 PARSCALE 能夠更有效地利用訓(xùn)練數(shù)據(jù)來提升模型性能。

在代碼生成性能方面，經(jīng)過 PEFT 后，PARSCALE 模型在 HumanEval 和 MBPP 等基準測試中的表現(xiàn)顯著提升。例如，在 HumanEval 數(shù)據(jù)集上，P = 8 時的 Pass@1 達到 25.0%，相比 P = 1 時的 18.9% 提升了 6.1 個百分點。這些結(jié)果表明，PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的應(yīng)用是有效的，能夠顯著提升模型的代碼生成能力。

(a)(b) 在兩個數(shù)據(jù)集上對Qwen-2.5-3B模型進行持續(xù)預(yù)訓(xùn)練的損失情況。 (c) 在Stack-V2（Python）上微調(diào)后的代碼生成性能。

上圖（a）和（b）展示了在 Stack-V2（Python）和 Pile 數(shù)據(jù)集上持續(xù)預(yù)訓(xùn)練 Qwen-2.5-3B 模型的損失曲線。圖 6（c）則展示了在 Stack-V2（Python）數(shù)據(jù)集上進行參數(shù)高效微調(diào)后的代碼生成性能。這些圖表驗證了 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的有效性。

通過這些實驗結(jié)果，我們可以看到 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的巨大潛力。它不僅能夠提升模型的性能，還能在實際應(yīng)用中提供更靈活的部署方案，為模型的廣泛應(yīng)用提供了有力支持。

相關(guān)工作、討論、總結(jié)

與推理時間擴展和模型集成的關(guān)系

PARSCALE 與推理時間擴展和模型集成等領(lǐng)域的聯(lián)系與區(qū)別，進一步凸顯了其獨特價值。

推理時間擴展策略主要通過增加推理時間來提升模型的推理能力。例如，OpenAI 的推理時間擴展方法通過擴增推理 token 數(shù)量，讓模型在推理階段進行更多的計算，從而提升推理性能。然而，這種方法通常需要大量的特定訓(xùn)練數(shù)據(jù)，并且會顯著增加推理延遲。相比之下，PARSCALE 在推理階段的延遲增加幅度較小，且不需要依賴特定的訓(xùn)練數(shù)據(jù)，具有更廣泛的適用性和更高的推理效率。

模型集成是一種通過結(jié)合多個模型的預(yù)測結(jié)果來提升性能的方法。傳統(tǒng)的模型集成方法通常不共享參數(shù)，或者僅部分共享參數(shù)。例如，Monte Carlo dropout 通過在推理階段應(yīng)用不同的隨機 dropout 遮罩來生成多個預(yù)測結(jié)果，然后進行集成。而 PARSCALE 則是在保持參數(shù)規(guī)模幾乎不變的情況下，通過并行計算來實現(xiàn)模型集成的效果。它利用 P 種不同的可學(xué)習(xí)變換和動態(tài)加權(quán)平均機制，使得各個并行流之間既共享大部分參數(shù)，又能保持一定的差異性。這種設(shè)計不僅降低了模型集成的內(nèi)存占用和訓(xùn)練成本，還提升了推理效率。

PARSCALE 與推理時間擴展和模型集成之間也存在協(xié)同作用的可能性。例如，可以將 PARSCALE 與推理時間擴展相結(jié)合，在推理階段同時利用并行計算和序列計算來進一步提升模型性能?；蛘?，可以將 PARSCALE 與其他模型集成方法相結(jié)合，構(gòu)建更具魯棒性和性能的模型系統(tǒng)。這些協(xié)同作用的探索將進一步拓展 PARSCALE 的研究視野和應(yīng)用前景。

對模型容量本質(zhì)的思考

PARSCALE 的研究成果引發(fā)了我們對模型容量本質(zhì)的深入思考。傳統(tǒng)上，模型容量通常被認為是參數(shù)數(shù)量和計算量的綜合體現(xiàn)。然而，PARSCALE 的研究表明，模型容量可能更多地取決于計算量，而非單純的參數(shù)數(shù)量。

在 PARSCALE 中，通過增加并行計算次數(shù) P，在幾乎不增加參數(shù)數(shù)量的情況下，顯著提升了模型的性能。例如，在 Stack-V2 數(shù)據(jù)集上，當(dāng) P 從 1 增加到 8 時，1.6B 參數(shù)的模型性能與 4.4B 參數(shù)的模型相當(dāng)。這說明，通過合理的計算擴展，即使在參數(shù)規(guī)模較小的情況下，模型也能夠達到較高的性能水平。

這種對模型容量的新理解，為我們未來的模型設(shè)計和擴展策略提供了有益的啟示。它提醒我們在追求更大參數(shù)規(guī)模的同時，不應(yīng)忽視計算量對模型性能的提升作用。通過優(yōu)化計算結(jié)構(gòu)和提升計算效率，我們可以在有限的資源下實現(xiàn)更強大的模型性能，為 AI 技術(shù)的發(fā)展注入新的動力。

總結(jié)關(guān)鍵發(fā)現(xiàn)

PARSCALE 作為一種新型的語言模型擴展范式，在多個方面展現(xiàn)出了顯著的優(yōu)勢和巨大的潛力。

性能提升 ：通過增加并行計算次數(shù) P，PARSCALE 能夠顯著提升模型在各種任務(wù)上的性能。例如，在代碼生成任務(wù)上，P = 8 時的性能相比 P = 1 時提升了近 10 個百分點；在數(shù)學(xué)推理任務(wù)上，性能提升幅度更是高達 34%。
推理效率 ：PARSCALE 在推理效率方面表現(xiàn)出色。與參數(shù)擴展策略相比，PARSCALE 在內(nèi)存占用和推理延遲方面均具有顯著優(yōu)勢。在小批量場景下，其延遲增加幅度僅為參數(shù)擴展策略的 1/6，內(nèi)存占用增加幅度僅為 1/22。
訓(xùn)練成本 ：PARSCALE 的訓(xùn)練成本相對較低。通過兩階段訓(xùn)練策略，我們能夠在處理少量訓(xùn)練數(shù)據(jù)的情況下，快速提升模型性能，降低了訓(xùn)練成本。
適用場景廣泛 ：PARSCALE 適用于多種應(yīng)用場景，從代碼生成到通用任務(wù)，從數(shù)學(xué)推理到指令遵循任務(wù)，均展現(xiàn)出了良好的性能提升。其動態(tài)并行擴展的靈活性使得模型能夠適應(yīng)不同的吞吐量和資源限制需求。

這些關(guān)鍵發(fā)現(xiàn)表明，PARSCALE 不僅能夠有效解決當(dāng)前 LLM 面臨的性能瓶頸和資源限制問題，還為未來智能模型的發(fā)展提供了一種全新的思路和技術(shù)途徑。

參考資料

Parallel Scaling Law for Language Models：https://arxiv.org/pdf/2505.10475
Training compute-optimal large language models：https://arxiv.org/abs/2203.15556
Scaling laws for neural language models：https://arxiv.org/abs/2001.08361
Qwen2.5 technical report：https://arxiv.org/abs/2412.15115
The pile: An 800gb dataset of diverse text for language modeling：https://arxiv.org/abs/2101.00027

責(zé)任編輯：龐桂玉來源：覺察流

PARSCALE 大型語言模型 LLM

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：精品久久一区 | 日韩免费看视频 | 欧美日韩国产中文 | 黄色毛片大全 | 午夜在线影院 | 97免费在线观看视频 | 欧美成人一区二区 | 国产精品激情 | 亚洲男人天堂av | 久久美国 | 亚洲精品成人在线 | 9久9久| 日本三级播放 | 成年人免费在线视频 | 国产亚洲欧美日韩精品一区二区三区 | 在线亚洲人成电影网站色www | 毛片一区二区三区 | 欧美精品在线一区二区三区 | 国产精品视频久久久 | 欧美aⅴ| 91在线视频免费观看 | 狠狠干网站 | 日韩久草 | 亚洲视频中文字幕 | 午夜电影福利 | 国产精品久久久久久中文字 | 国产一区二区在线免费观看 | 欧美综合一区二区 | 亚洲精品www | 日韩av成人在线观看 | 欧美精品二区三区 | 亚洲视频免费在线播放 | 婷婷免费视频 | 国产精品污www一区二区三区 | 精品一区二区免费视频 | 日本午夜精品 | 午夜天堂精品久久久久 | www312aⅴ欧美在线看 | 在线日韩欧美 | 国产精品综合一区二区 | 日韩欧美专区 |

<output id="yfbwd"><option id="yfbwd"><em id="yfbwd"></em></option></output>

<tfoot id="yfbwd"></tfoot>

<form id="yfbwd"></form>