Qwen:PARSCALE 讓語言模型在并行中飛躍
大家好,我是肆〇柒。今天,我們來聊聊大型語言模型(LLM)領域的一項研究——PARSCALE。在人工智能快速發展的當下,大型語言模型應用前景無比廣闊,然而,隨著模型規模的不斷膨脹,我們正面臨著前所未有的挑戰。以 DeepSeek-V3 模型為例,其參數量已達到 672B,這使得邊緣設備部署時內存需求飆升,極大地限制了模型的實際應用范圍。與此同時,為提升推理能力而增加生成推理 token 數量的方法,也帶來了顯著的時間和成本問題。例如,有研究發現某些強大模型在解答像“2+3=?”這樣簡單的問題時,會生成多達 900 個推理 token,耗費數秒甚至數十秒的時間。這些問題讓我們不得不思考:是否存在一種更高效、更經濟的模型擴展方式?
該研究由浙江大學和 Qwen 團隊合作完成,提出了 PARSCALE 方法。它是一種全新的并行擴展范式,有望突破現有擴展方法的局限,為 LLM 的發展提供新的思路。接下來,讓我們一起看看這項研究的內容。
參數擴展的困境
隨著大型語言模型在各行各業的應用不斷深入,模型參數量的增加已成為提升性能的主要手段之一。然而,這種方式卻帶來了沉重的內存負擔。在醫療領域,智能診斷系統需要處理海量的醫療影像和病歷數據。當模型參數量不斷增加時,所需的內存資源呈指數級增長。這意味著云端服務器需要投入大量資金用于存儲設備的升級,而對于邊緣設備,如移動醫療檢測儀,由于內存容量有限,往往無法本地運行大型模型,這影響了診斷效率,還可能涉及數據隱私問題,因為數據需要傳輸到云端進行處理。
推理時間擴展的局限
為了提高模型的推理能力,研究人員嘗試通過增加生成推理 token 數量來增強模型對復雜問題的理解和解決能力。這種方法在一定程度上確實提升了模型的性能,但其時間和成本問題卻日益突出。
Classifier-Free Guidance(CFG)的啟示
研究人員發現 Classifier-Free Guidance(CFG)在擴散模型中的成功應用為解決上述問題提供了重要啟示。在圖像生成領域,CFG 通過兩次前向傳播來提升生成圖像的質量。首先對原始輸入進行正常前向傳播得到一個輸出流,然后對輸入進行擾動(如去除條件信息)得到第二個輸出流。最后,根據預設的對比規則對這兩個流進行聚合,從而獲得比單次前向傳播更優的性能。實驗數據顯示,在圖像生成任務中,CFG 相較于單次前向傳播,性能提升了 20% 至 30%。
受 CFG 的啟發,研究人員提出了一個假設:CFG 的有效性可能源于其雙倍的計算量。基于這一假設,就提出了 PARSCALE 方法。PARSCALE 是通過增加并行計算來提升模型能力,而不僅僅依賴參數擴展或推理時間擴展。PARSCALE 借鑒了 CFG 的核心理念,通過在訓練和推理過程中引入多個并行流,并對這些流的輸出進行動態聚合,實現了更高效、更靈活的模型擴展。
PARSCALE 方法論
如下圖所示,PARSCALE 的并行擴展方式與傳統擴展方式形成鮮明對比,為我們提供了一種新的思考視角來理解模型擴展。
(1) 并行擴展(PARSCALE)的示意圖。 (2) 在Stack-V2(Python子集)的42B tokens上對預訓練模型進行并行放大定律。 (3) 隨著推理成本變化的損失放大曲線。結果是根據批次大小 ∈ {1,2,4,8} 和輸入 + 輸出tokens ∈ {128,256,512,1024} 計算的平均值。
核心思想
PARSCALE 的核心思想是在不顯著增加模型參數的情況下,通過增加并行計算來提升模型的性能。傳統上,大型語言模型主要依賴于參數擴展或推理時間擴展來增強能力。然而,這兩種方法都存在明顯的局限性。PARSCALE 提出了一種新的思路,即在訓練和推理過程中,對輸入進行多種不同的可學習變換,生成多個并行流,然后執行模型的并行前向傳播,最后通過動態加權和的方式對多個流的輸出進行聚合。這種方法充分利用了現有的模型參數,通過并行計算來實現性能的提升。
我們可以將傳統單一流模型比作一條單行道,數據依次通過,效率受限于道路的寬度(即模型參數)。而 PARSCALE 就像多車道的并行道路,多個數據流可以同時前行,大大提升了運輸(計算)效率。例如,當處理一個自然語言推理任務時,PARSCALE 可以同時從多個角度對輸入文本進行分析,每個并行流關注文本的不同特征或語義方面。然后,通過對這些流的輸出進行動態加權聚合,模型能夠綜合各個角度的信息,做出更準確的推理判斷。
輸入變換與輸出聚合策略的細化
在 PARSCALE 中,輸入變換采用前綴調優方法。首先將輸入 x 復制成 P 個平行副本,然后在每個副本的輸入嵌入中添加獨特的前綴標識。這些前綴在模型的每一層中作為鍵值(KV)緩存的一部分,用于區分不同的并行流。通過這種方式,模型能夠為每個并行流生成不同的輸出。
輸出聚合則采用動態加權平均方法。在每個 token 的生成過程中,將多個并行流的輸出連接在一起,然后通過一個多層感知機(MLP)將其轉換為長度為 P 的向量,作為聚合權重。為了確保權重的合理性,使用 softmax 函數對這些權重進行歸一化處理。在訓練初期,模型可能會將幾乎所有的權重分配給少數幾個并行流,導致其他并行流的權重接近于零。為了解決這一問題,PARSCALE 引入了標簽平滑技術,為每個權重設置了一個非零的最小值,從而確保每個并行流都能獲得一定的梯度更新,避免了負載不均衡的問題。
以下是輸出聚合的關鍵代碼片段:
import torch
import torch.nn as nn
import torch.nn.functional as F
classDynamicWeightAggregation(nn.Module):
def__init__(self, input_dim, num_streams):
super(DynamicWeightAggregation, self).__init__()
self.mlp = nn.Linear(input_dim * num_streams, num_streams)
self.num_streams = num_streams
defforward(self, streams):
# streams shape: (batch_size, num_streams, token_dim)
batch_size, num_streams, token_dim = streams.shape
# Concatenate all streams
concat_streams = streams.view(batch_size, -1)
# Compute weights
weights = self.mlp(concat_streams)
weights = F.softmax(weights, dim=1)
# Apply label smoothing
epsilon = 0.1
weights = weights * (1 - epsilon) + epsilon / self.num_streams
# Weighted sum
aggregated = torch.bmm(weights.unsqueeze(1), streams).squeeze(1)
return aggregated
與其他擴展策略的對比深化
與其他擴展策略相比,PARSCALE 在多個方面具有顯著優勢。以下表格對比了 PARSCALE 與其他主流擴展策略的特點:
方法 | 推理時間成本 | 推理空間成本 | 訓練成本 | 是否需要專用策略 |
Dense Scaling | 中等 | 高 | 僅預訓練 | 否 |
MoE Scaling | 低 | 高 | 僅預訓練 | 負載均衡 |
Inference-Time Scaling | 高 | 中等 | 后訓練 | 需要 RL / 獎勵數據 |
PARSCALE | 中等 | 中等 | 預訓練或后訓練 | 否 |
PARSCALE 的優勢明顯。在處理海量數據的 LLM 系統中,Dense Scaling 由于內存需求巨大,很難在普通的服務器上部署。而 PARSCALE 能夠在有限的內存下高效地完成并行計算。
在需要快速響應的諸如智能客服系統中,與 Inference-Time Scaling 的高時間成本相比,PARSCALE 能在保證推理質量的同時大幅縮短響應時間。
并行擴展法則
并行擴展法則中的關鍵參數詳解
并行流數量 P
并行流數量 P 是 PARSCALE 的核心參數之一,表示在訓練和推理過程中同時處理的輸入流數量。增大 P 可以顯著提升模型的并行計算能力,從而增強模型性能。例如,當 P 從 1 增加到 8 時,模型的推理能力可提升數倍。在實際應用中,P 的選擇需結合硬件資源和任務復雜度進行優化。若 P 過大,可能導致內存占用增加和計算資源浪費;若 P 過小,則無法充分發揮 PARSCALE 的并行優勢。
模型參數數量 N
模型參數數量 N 直接影響模型的表達能力和計算復雜度。在 PARSCALE 中,雖然通過并行計算提升了性能,但模型參數數量仍起著基礎性作用。假設模型參數數量為 1.6B,當 P 從 1 增加到 8 時,模型性能大幅提升,但若 N 過小,即使增大 P,性能提升也有限。因此,需在模型參數規模和并行流數量之間找到最佳平衡。一般而言,對于復雜任務如代碼生成,N 需達到一定規模(如數億參數)才能充分展現 PARSCALE 的優勢。
指數 α
指數 α 是衡量模型損失隨參數和并行計算變化的敏感度參數。在損失公式中,α 決定了模型對參數擴展和并行計算擴展的響應程度。經過實驗驗證,在 Stack-V2-Python 數據集上,α 約為 0.189,表明模型損失對參數和并行計算變化較為敏感。當 α 較大時,參數擴展對性能提升效果顯著;當 α 較小時,并行擴展的作用更為突出。例如,對于 α = 0.2 的模型,并行流數量 P 增加一倍,相當于參數擴展約 1.5 倍;而對于 α = 0.1 的模型,同樣的 P 增加效果相當于參數擴展約 3 倍。
DIVERSITY 參數
DIVERSITY 參數反映了不同并行流輸出之間的差異性程度,是衡量并行流獨立性和互補性的關鍵指標。其值越大,表示并行流之間的差異性越顯著,模型性能提升潛力越大。DIVERSITY 受并行流相關系數 ρ 的影響,當 ρ = 0 時,并行流獨立,DIVERSITY 最大,模型損失與 P 呈現冪律關系(L ∝ P?1)。若并行流相關性較高(ρ 接近 1),則 DIVERSITY 較小,性能提升受限。在實驗中發現,當 P = 8 時,不同模型的 DIVERSITY 值差異顯著,如代碼生成任務中 DIVERSITY 較高,而常識問答任務中相對較低,表明不同類型任務對并行流差異性的需求不同。
并行擴展法則的理論分析
從理論上來說,PARSCALE 的損失函數遵循一種新的擴展法則。研究者借鑒了 Chinchilla 擴展法則,并結合信息論中的相關概念,深入探討了模型損失與參數、并行計算量之間的關系。假設每個并行流的預測遵循 Chinchilla 擴展法則:
其中, 是第 個并行流的交叉熵損失, 是模型參數數量,、 和 是正的常數, 表示自然文本的熵。
在 PARSCALE 中,通過聚合 個并行流的輸出,最終預測的損失 可以表示為:
其中,DIVERSITY 是一個衡量并行流之間多樣性的參數。當并行流之間的相關系數 時,即并行流之間獨立,損失 與 呈現冪律關系(即 )。這表明通過增加并行計算量 ,可以有效地降低模型的損失,提升模型性能。
進一步的理論分析表明,在一定條件下,P 次并行計算的擴展效果類似于將模型參數按 的比例進行擴展。例如,當 時,模型的性能提升相當于參數擴展了 倍。這種理論依據為 PARSCALE 的有效性提供了堅實的數學基礎。
基于420億個 token 訓練的、按參數數量和并行流數量P縮放的大型語言模型(LLM)的損失情況。每個點表示一次訓練運行的損失值。圖中展示了根據公式擬合的縮放定律曲線,并標注了擬合參數(E、A、k、α)以及擬合優度R2
實驗驗證
為了驗證并行擴展法則的有效性,研究者在 Stack-V2(Python 子集)和 Pile 語料庫上進行了大規模的預訓練實驗。實驗涵蓋了多種模型參數規模(從 0.5B 到 4.4B)和不同的并行流數量(從 1 到 8)。實驗結果顯示,隨著并行流數量 的增加,模型的損失呈現出明顯的下降趨勢,驗證了并行擴展法則的正確性。
在 Stack-V2(Python 子集)數據集上,當模型參數為 1.6B 時,隨著 從 1 增加到 8,訓練損失從 1.0817 下降到 0.9794,驗證損失也從 1.1131 下降到 0.9794。在 Pile 語料庫上,當模型參數為 4.4B 時,隨著 從 1 增加到 8,訓練損失從 1.8451 下降到 1.7772,驗證損失從 1.8218 下降到 1.7772。這些數據表明,PARSCALE 在不同的數據集和模型規模下都能有效提升模型性能。
預測的PARSCALE損失等高線。每條等高線表示具有相似性能的(參數,P)組合
通過對比不同 值和模型參數組合下的學習曲線和驗證曲線,發現,在訓練初期,并行流數量較多的模型收斂速度更快。例如,在 Pile 語料庫上,當 時,模型在訓練初期的損失下降速度比 快出 30%。這進一步證明了并行擴展法則在實際訓練過程中的有效性。
Stack-V2-Python和The Pile的訓練損失,采用0.98的指數移動平均進行平滑處理
上圖作為實驗結果的補充,直觀展示模型在不同數據集和參數組合下的訓練損失變化趨勢,進一步證明并行擴展法則的正確性。
關鍵結論的拓展
在強調 P 次并行計算擴展相當于將參數按 的比例進行擴展等重要結論的基礎上,進一步探討了這些結論在不同場景下的適用性和局限性。例如,在文本生成任務中,模型參數與并行計算量的最佳配比關系可能與在機器翻譯任務中有所不同。通過大量實驗,發現,在文本生成任務中,當 值在 4 到 8 之間時,模型的性能提升最為顯著,而參數擴展的收益相對較小。而在機器翻譯任務中,參數擴展和并行擴展的組合使用能夠取得最佳效果。
此外,還發現,對于不同類型的任務(如情感分析、問答系統等),可以通過靈活調整 值來達到最佳性能。例如,在情感分析任務中,由于任務相對簡單,較小的 值(如 2 或 4)即可取得較好的效果,而過大的 值可能會導致過擬合。在問答系統中,較大的 值(如 8)能夠更好地捕捉問題和答案之間的復雜關系,提高回答的準確性和相關性。
另外,PARSCALE 在數據重復使用的情況下也能展現出優勢。如下圖所示,在 OpenWebText 數據集上重復訓練多個周期時,可以發現 PARSCALE 模型相比參數擴展模型在抵抗過擬合方面表現出更強的穩定性。當 P = 2 時,PARSCALE 模型的驗證損失在第五個 epoch 突然增加時仍能保持相對較低的水平,相比參數擴展模型(N = 5B,P = 1)展現出更強的泛化能力。
在數據重復使用的情況下,PARSCALE 模型相比參數擴展模型在抵抗過擬合方面的優勢。
在OpenWebText上進行多次重復訓練周期的訓練損失。在第五個訓練周期時,驗證損失突然增加,而計算量更大的模型(N = 3B,P = 2)相比參數量更多的模型(N = 5B,P = 1)表現出更強的抗過擬合能力
推理成本分析
內存成本對比
研究者對 PARSCALE 和參數擴展方法的內存使用情況進行了比較。由于 PARSCALE 幾乎不增加額外參數,且 KV 緩存大小的增長遠小于模型參數所占用的 GPU 內存,其內存效率顯著優于參數擴展方法。例如,當并行流數量 時,KV 緩存大小的增加遠低于參數擴展方法中模型參數的增長,這使得 PARSCALE 在資源受限的環境中具有顯著優勢。
時間成本對比
在時間成本方面,PARSCALE 通過將內存瓶頸轉化為計算瓶頸,并利用對 GPU 友好的并行計算,有效降低了推理延遲。論文中的實驗數據顯示,與參數擴展方法相比,PARSCALE 在小批量推理時的延遲增加顯著減少。對于 1.6B 模型,當擴展至相同的性能提升時,PARSCALE 的內存增加僅為參數擴展的 1/22,延遲增加僅為 1/6。這表明 PARSCALE 在推理效率上具有顯著優勢,尤其適合低資源邊緣設備。
下圖直觀展示了模型容量(以損失表示)與推理空間-時間成本之間的關系。圖中比較了不同參數規模(1.6B、2.8B、4.4B)和批量大小(1、2、4、8)下的情況,藍色箭頭表示參數擴展,灰色箭頭表示并行擴展。這些圖表清晰地表明,PARSCALE 在推理成本上具有顯著優勢。
模型容量(由損失值表示)與推理時空成本成比例,涉及三個參數(16億、28億和44億)以及批量大小∈{1, 2, 4, 8}。結果是基于輸入/輸出標記∈{64, 128, 256, 512}的平均值。藍色箭頭表示參數擴展;灰色箭頭代表并行擴展
訓練數據擴展與應用場景
兩階段預訓練策略的關聯性強化
PARSCALE 的兩階段預訓練策略在實際應用中展現出了強大的優勢。在第一階段,模型通過傳統預訓練方法學習基礎的語言模式和語義信息。這一階段的訓練為模型奠定了堅實的基礎,使其具備了基本的語言理解和生成能力。在第二階段,PARSCALE 引入并行擴展訓練,利用少量的 token 高效地提升模型性能。這種策略既降低了訓練成本,還能夠針對特定任務進行優化。
下圖展示了兩階段訓練的損失變化情況,清晰地反映了第二階段對模型性能的提升。
兩階段訓練的損失,使用權重為0.95的指數移動平均進行平滑
在第一階段訓練中,模型使用了大量的通用文本數據,學習了語言的語法、詞匯和基本語義。在第二階段,模型在數據上進行并行擴展訓練,通過增加并行流數量 ,模型能夠從多個角度分析內容,識別出各種類型的錯誤和問題。實驗數據顯示,當 從 1 增加到 8 時,任務準確率提升了 14 個百分點,而訓練時間僅增加了 10%。這充分展示了兩階段預訓練策略與 PARSCALE 并行擴展范式的緊密關聯和高效性。
在現成預訓練模型上的應用關聯性深化
將 PARSCALE 應用于現成的預訓練模型 Qwen-2.5 的實驗結果進一步證明了其有效性。在持續預訓練和參數高效微調過程中,模型性能的提升與 PARSCALE 的并行擴展原理密切相關。例如,在代碼生成任務中,經過 PARSCALE 微調后的模型生成的代碼效率和正確性顯著提升。模型生成的代碼在運行速度上比微調前快了 30%,代碼的正確率提高了 25%。
下圖展示了 Qwen-2.5 模型在不同數據集上的持續預訓練損失變化,以及在 Stack-V2 (Python) 數據集上的微調性能表現。從圖中可以看出,PARSCALE 微調后的模型在代碼生成任務中表現出了顯著的性能提升。這表明 PARSCALE 能夠通過并行計算捕捉代碼生成中的多種模式和邏輯關系,從而提高生成代碼的質量。
Qwen-2.5 模型持續預訓練與微調性能
在數學問題求解任務中,PARSCALE 通過動態并行擴展適應不同應用場景的優勢也得到了充分體現。微調后的模型在解答數學問題時,能夠生成更簡潔、更準確的解答步驟。例如,在 GSM8K 數據集上,模型的準確率從原來的 35% 提升至 50%。這表明 PARSCALE 能夠通過并行計算捕捉數學問題的多種解法和邏輯關系,從而提高解答的準確性和多樣性。
探討其他相關研究
推理時間擴展
推理時間擴展(inference-time scaling)方法,如 GPT-o1 等模型通過擴展串行計算增加思維鏈長度,雖然在處理復雜推理任務時取得了一定的成果,但在效率和準確性方面仍存在不足。例如,GPT-o1 在解答復雜數學問題時,雖然通過增加推理 token 數量能夠生成更詳細的解答步驟,但其準確率僅提高了 10%,而推理時間卻增加了 5 倍。相比之下,PARSCALE 通過并行計算擴展,在保證推理質量的同時顯著降低了時間和成本。
此外,無需額外訓練的推理時間擴展方法,如Beam-Search、自一致性、多數投票等,雖然在某些任務上能夠取得較好的效果,但其性能受限于模型本身的推理能力。PARSCALE 在訓練階段就引入并行計算擴展,能夠更好地提升模型的推理能力。例如,在對比束搜索和 PARSCALE 在文本生成任務中的表現時發現,PARSCALE 生成的文本在連貫性和相關性方面比束搜索高出 20%,同時推理時間減少了 40%。這表明 PARSCALE 與這些方法具有互補性,可以通過結合使用進一步提升模型性能。
下表展示了 PARSCALE 與束搜索的性能對比,幫助我們更直觀地理解兩者在數學推理任務上的表現差異。
PARSCALE 與 Beam-Search 的性能對比
Classifier-Free Guidance(CFG)的關聯拓展
CFG 的核心思想是通過擾動輸入來引導模型生成更符合預期的輸出。在文本生成任務中,CFG 通過去除條件信息來獲得第二個輸出流,然后與正常輸出流進行對比和聚合,從而提升生成文本的質量。PARSCALE 在此基礎上進一步發展,通過增加多個并行流,并采用動態加權聚合方法,能夠更靈活地控制生成文本的風格和內容。
例如,在情感分析任務中,CFG 通過擾動輸入文本的情感傾向來生成對比輸出流,從而增強模型對情感特征的識別能力。而 PARSCALE 則通過多個并行流從不同角度分析文本的情感特征,然后動態聚合這些流的輸出,使得模型能夠更準確地識別復雜情感。實驗數據顯示,PARSCALE 在情感分析任務中的準確率比 CFG 高出 15%,同時推理速度提升了 30%。這表明 PARSCALE 在提升模型性能方面具有更顯著的優勢。
模型集成的對比深化
與傳統模型集成方法相比,PARSCALE 在多個方面具有顯著優勢。傳統集成方法通常需要訓練多個獨立的模型,可這增加了訓練時間和計算資源的消耗,還在推理階段需要同時運行多個模型,導致推理效率低下。而 PARSCALE 通過共享參數和動態加權聚合,在不顯著增加資源消耗的情況下實現了類似甚至更優的集成效果。
例如,在一個圖像分類任務中,傳統集成方法需要訓練 5 個獨立的模型,每個模型的參數量為 100M,總參數量達到 500M,訓練時間為 10 天。而 PARSCALE 僅需一個模型,通過設置并行流數量 ,即可實現相當的性能,且總參數量僅為 105M,訓練時間縮短至 3 天。在推理階段,PARSCALE 的推理速度比傳統集成方法快出 4 倍,同時準確率提高了 5%。這充分展示了 PARSCALE 在模型集成方面的高效性和優越性。
語言模型擴展法則的拓展融合
PARSCALE 對現有的 Chinchilla 擴展法則進行了拓展和補充,提出了一個新的并行擴展法則。通過將并行計算量納入考慮,PARSCALE 在理論上和實踐中都證明了其有效性。與模型集成擴展法則相比,PARSCALE 更加靈活,能夠根據實際需求動態調整并行流數量 ,從而在不同的應用場景下實現最佳性能。
例如,在一個大規模文本生成任務中,通過結合 Chinchilla 擴展法則和 PARSCALE 的并行擴展法則,模型的性能得到了顯著提升。當模型參數從 1B 擴展到 8B,同時并行流數量 從 1 增加到 8 時,文本生成的質量評分從 65 分提升至 85 分。這表明 PARSCALE 在現有擴展法則的基礎上,能夠更有效地利用計算資源,提升模型性能。通過建立統一的理論框架,將不同擴展法則納入其中,PARSCALE 為未來語言模型的擴展研究提供了更全面、更系統的理論指導。
討論與未來工作
訓練推理最優語言模型的路徑探索
在實際應用中,確定在不同推理預算下(如內存、延遲和批量大小)參數與并行計算的分配是一個關鍵問題。以實時翻譯系統為例,我們需要在保證翻譯準確率的同時,盡可能降低翻譯延遲。通過建立數學模型并進行模擬實驗,發現當內存預算為 4GB,延遲預算為 2 秒,批量大小為 32 時,將參數擴展比例設置為 60%,并行擴展比例設置為 40%(即 ),能夠使模型的翻譯準確率達到最高。
比如,在實時翻譯系統中,對不同分配方案進行了測試。當參數擴展比例為 80%(即模型參數擴展 2 倍),并行擴展比例為 20%(即 )時,翻譯準確率為 82%,延遲為 1.5 秒;當參數擴展比例為 60%,并行擴展比例為 40%(即 )時,翻譯準確率提升至 88%,延遲仍保持在 1.5 秒;而當參數擴展比例降至 40%,并行擴展比例升至 60%(即 )時,翻譯準確率反而下降至 85%,延遲增加至 2.2 秒。這表明存在一個最優的分配方案,能夠使模型性能達到最佳。通過進一步收集和分析不同類型 LLM 在不同應用場景下的實際數據,可以更準確地預測不同分配方案對模型性能的影響,為實際應用中的模型部署和優化提供具體指導。
并行擴展法則的進一步理論突破
目前,直接建模 DIVERSITY 的困難限制了并行擴展法則的理論深度。為了解決這一問題,研究者計劃結合信息論和統計學中的前沿研究成果,提出新的理論方法和數學工具。例如,利用深度學習中的表示學習理論,分析不同并行流在模型內部的特征表示差異及其對 DIVERSITY 的影響。通過開展大量實驗,收集不同模型架構、不同數據集下的實驗數據,建立 DIVERSITY 與 的經驗模型。
在初步實驗中,發現當并行流數量 增加時,DIVERSITY 呈現先上升后下降的趨勢。這表明存在一個最優的 值,能夠使 DIVERSITY 最大化。例如,在某文本分類任務中,當 時,DIVERSITY 達到最大值,模型性能也最佳。研究者計劃通過進一步的實驗和理論分析,探索是否存在超過 的增長率以及 遠大于 8 時的性能上限等問題,從而為并行擴展法則的理論完善提供實證依據。
兩階段策略的最優分界點的實踐指導
為了確定不同模型的最佳兩階段策略分界點,研究者建立了一個數據驅動的優化模型。通過收集和分析不同類型 LLM 在采用兩階段預訓練策略時的實際數據,發現模型規模和訓練數據特點對最佳分界點有顯著影響。例如,對于較小規模的模型(如參數量在 1B 到 5B 之間),第一階段使用 80% 的訓練數據,第二階段使用 20% 的數據進行并行擴展訓練,能夠取得最佳性能。而對于較大規模的模型(如參數量超過 10B),第一階段使用 90% 的數據,第二階段使用 10% 的數據進行并行擴展訓練更為合適。
總結
PARSCALE 作為一種語言模型并行擴展范式,帶來了多方面的創新與價值。首先,它提出了通過增加并行計算來提升模型能力的理念,打破了傳統參數擴展和推理時間擴展的局限。其次,PARSCALE 通過理論推導和大規模實驗驗證了并行擴展法則的有效性,證明了 P 次并行計算擴展相當于將模型參數按 的比例進行擴展。此外,PARSCALE 在推理效率和模型能力提升方面表現出色,尤其適用于低資源邊緣設備。
實驗部分的數據更是令人信服。看到那些具體的數值對比,比如內存使用減少 22 倍,延遲增加僅為 6 倍,與傳統參數擴展方法相比的巨大優勢,讓我深刻意識到 PARSCALE 的實際應用價值。這不僅僅是一個理論上的模型,它已經在多個數據集和任務中證明了自己的實力,從代碼生成到常識問答,PARSCALE 都展現出了卓越的性能。
讀完關于 PARSCALE 的論文讓我想起另外一個 Repeat 重復采樣的論文,畢竟這已是在實際實踐中應用的,重復采樣本身就是通過并行的 continuous batching 來實現的。我通過對 Qwen 團隊研究的這個 PARSCALE 的了解,對并行擴展有了更進一步的認知。通過并行計算流的引入和動態輸出聚合,PARSCALE 在不大幅增加模型參數的情況下,實現了顯著的性能提升。PARSCALE 為大型語言模型的Scaling提供了新的思路,同時也為人工智能技術在業務上的落地注入了新的活力。