更小、更弱,卻更優:通過計算最優抽樣訓練大語言模型推理器
一、結論寫在前面
論文標題:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
論文鏈接:??https://arxiv.org/pdf/2408.16737??
利用來自強大語言模型(LMs)的高質量合成數據進行訓練是提升LMs推理性能的常見策略。論文重新審視了在固定推理預算(例如,FLOPs)下,這一策略是否為計算最優。為此,論文探究了使用更強但更昂貴(SE)模型與較弱但更廉價(WC)模型生成合成數據之間的權衡。
論文評估了生成數據在三個關鍵指標上的表現:覆蓋率、多樣性和誤報率,并表明WC模型生成的數據可能具有更高的覆蓋率和多樣性,但也表現出更高的誤報率。
隨后,論文在不同設置下對LMs進行微調:知識蒸餾、自我改進以及一種新穎的弱到強改進設置,其中較弱的LM向較強的LM傳授推理能力。論文的研究發現,在多個基準和多種WC與SE模型選擇下,基于WC生成數據微調的模型始終優于那些基于SE生成數據訓練的模型。這些結果挑戰了當前依賴SE模型生成合成數據的主流做法,表明WC可能是訓練高級LM推理器的計算最優途徑。
一個具體例子是:對于Gemma2系列在MATH數據集上,Gemma2-9B實現了11%更高的覆蓋率和86%更高的多樣性,但也伴隨著7%的更高FPR,相比于Gemma2-27B。
圖 1 | 結果總結。(a) 論文在計算匹配的設置下,使用從更強大但更昂貴的LM(Gemma2-27B)和較弱但較便宜的LM(Gemma2-9B)收集的合成數據,對Gemma-7B、Gemma2-9B和Gemma2-27B進行微調,用于MATH數據集。論文發現,在多種微調范式——知識蒸餾、自我改進和弱到強改進(即使用較弱的模型來改進較強的模型)中,使用Gemma2-9B數據進行訓練是更計算優化的設置。(b) 論文在價格匹配的設置下,使用由最先進的LM Gemini-1.5-Pro和Gemini-1.5-Flash生成的合成數據,對Gemma模型(7B/9B/27B)進行微調。論文發現,使用Flash生成的數據進行微調始終優于使用Pro生成的數據。
二、論文的簡單介紹
2.1 論文的背景
最近的研究表明,通過語言模型自身合成生成這些數據是可行的,這為訓練數據的獲取提供了一種潛在的更具擴展性和效率的方法。一種廣泛采用的方法是從LM中為一個問題采樣多個候選解決方案,過濾它們以確保最終答案的正確性,并在正確的解決方案上對模型進行微調。多項研究表明,使用這種合成解決方案訓練的LM優于使用人類編寫的解決方案訓練的LM。從業者通常從強大的LM中采樣解決方案以確保高質量。然而,從強大的LM中采樣是昂貴且資源密集型的,并且限制了在實際采樣預算內可以生成的解決方案數量。
論文探索了一種替代采樣方法。在固定的計算預算下,論文研究了從較弱但更便宜(WC)模型采樣,而不是通常采用的從較強且昂貴的微調LM(stronger but more expensive,SE)采樣的方法。通過比較WC和SE的數據,論文沿著三個在合成數據效用中起關鍵作用的方向進行分析:1-覆蓋率,解決的獨特問題的數量;2-多樣性,每個問題獲得的平均獨特解決方案數量;以及3-假陽性率(FPR),即以錯誤理由得出正確最終答案的問題百分比。
論文發現,由于可以從WC模型生成更多的樣本,與后者相比,這可能導致解決更廣泛的問題,并在固定預算下提供更多數據。論文在各種監督微調設置中比較了這兩種合成生成的數據集對訓練LM推理器的效用,并顯示使用WC數據訓練始終優于使用SE數據訓練。作為一個具體例子,對于Gemma2系列在MATH數據集(Hendrycks等人,2021)上,Gemma2-9B實現了11%更高的覆蓋率和86%更高的多樣性,但也伴隨著7%的更高FPR,相比于Gemma2-27B。
2.2. 預備知識
設 D={q_i, a_i} _i=1 ^i=n 為一個包含 n 個推理問題 q_i 及其最終答案(即標簽) a_i 的訓練數據集。利用此類數據提升模型推理能力的成功方法如下:論文采樣k 個樣本,其中 r_i j 是模型為 q_i 生成的第 j 個推理鏈(即解決方案),a_i j 是模型在非零溫度下對 q_i 的最終答案,并創建合成數據 D_G={q_i, {( r_i j, a_i j )}_j=1 ^j=k 。
接著,論文通過比較 a_i j 與 a_i 來過濾錯誤的解決方案,移除那些最終答案與標準答案不匹配的方案。最后,論文在剩余數據 D_G 上監督微調模型,以最大化目標函數??(??),即在給定問題 q 下生成推理 r 和最終答案 a 的概率。
關于 D_G,論文計算了平均值,如 Chen et al., 2010 所述。從概念上講,coverage@k 衡量了至少有一個正確解決方案的獨特問題的比例,假設論文從模型中為每個問題采樣 k 個解決方案。論文還定義了多樣性 Q k 為每當論文為每個問題采樣 k 個解決方案時,平均每個問題獲得的獨特正確解決方案的數量。最后,論文定義假陽性率 ( F P R ) 為 tD_G 中推理錯誤但最終答案正確的解決方案的百分比。
不同的語言模型(LM)選擇來采樣解決方案和微調模型會導致不同的設置。知識蒸餾(Hinton et al., 2015)對應于在從更強和更大的LM中采樣的合成數據上訓練學生LM。自我改進(Huang et al., 2022)對應于在由其自身生成的樣本上訓練LM。
2.3. 計算匹配的采樣和訓練
為了從D生成包含合成解決方案的數據集D_G,可以利用不同的模型來生成解決方案。具體來說,在固定的采樣預算(FLOPs)下,可以從較弱但成本較低的(a weaker but cheap,WC)模型中生成更多樣本,或者從較強但成本較高的(SE)模型中生成較少樣本。給定一個具有P_WC參數的WC模型和一個具有P_SE參數的SE模型,論文計算在固定預算下兩個模型的采樣比例,重點關注僅解碼器的Transformer模型。
根據(Kaplan et al., 2020),論文注意到每個推理token的FLOPs是2P,對于具有P參數的模型。因此,T個推理token的FLOPs是2PT。進一步假設生成每個解決方案平均需要W個推理token,對于兩種模型都是如此。設S_WC和S_SE分別表示論文為兩個模型每個問題生成的樣本數量。生成數據集D的樣本的總成本將是Cost_WC=n x S_WC x W x (2P_WC)和Cost_SE=n x S_SE x W x (2P_SE),分別對應于廉價和昂貴的模型。在固定的采樣預算下,論文有:
公式1表明,在固定的采樣預算下,對于每個問題,論文可以生成P_SE/P_WC個從WC中采樣更多樣本;比例尺與模型參數比例線性相關。從WC中采樣更多解決方案可能會增加正確解決更大子集問題(高覆蓋率)和每個問題獲得更多正確解決方案(高多樣性)的可能性。
表1 監督微調設置的總結。論文在三種設置下微調語言模型:(a)學生LM,(b)弱-廉價(WC)LM,和(c)強-昂貴(SE)LM。對于每種設置,論文根據合成數據的來源采用了不同的微調范式。例如,使用來自WC和SE模型的數據訓練一個單獨的學生LM屬于知識蒸餾范式。相比之下,使用其自身樣本訓練WC模型是自我改進。最后,論文還引入了一種新的范式,即弱到強改進,其中WC模型的樣本被用來在固定計算預算下提高SE模型的推理能力。
在固定預算下,論文可以選擇從SE模型生成較少樣本或從WC模型生成更多樣本,然后對來自每個模型的數據進行固定步數的微調,以測量和比較每個模型數據的效用。具體來說,論文生成的樣本比WC模型比SE模型多P_S E / P_W C。論文考慮了三種包含多樣化微調范式的設置。這些范式包括廣泛使用的知識蒸餾、新興的自改進框架,以及論文在本工作中引入的新穎的弱到強改進范式。
論文將弱到強改進(W2S-I)定義為使用從較弱模型生成的樣本來增強強模型的推理能力。三種設置如下:
?學生-LM微調:傳統上,用于訓練學生LM的監督微調數據從SE模型獲取,以確保高質量。然而,論文旨在理解WC模型是否能在固定采樣預算下替代SE模型進行蒸餾。為此,論文在WC和SE數據上分別對與WC和SE模型獨立的學生LM進行微調,這在兩種情況下對應于蒸餾。
?WG-LM微調:先前的工作(Singh et al., 2023)表明,通過自生成數據微調WC模型落后于從SE數據蒸餾。然而,他們的設置在從SE模型收集數據上花費了更高的采樣預算(FLOPs),而不是從WC模型收集SI數據。在本工作中,論文在固定采樣預算下重新審視這一微調設置,并在固定預算下對WC模型在WC和SE數據上進行微調。注意,在自身數據上訓練WC模型對應于自我改進,而在SE數據上訓練WC模型對應于蒸餾。因此,此設置比較了WC數據上的自我改進與SE數據上的蒸餾。
?SE-LM微調:通常認為要改進SE模型,論文需要來自SE模型自身的合成數據或來自比SE模型更強(且可能更昂貴)的模型。論文采用一種方法來理解WC模型生成的合成數據是否能改進SE模型。為此,論文在WC和SE數據上微調SE模型。在WC數據上訓練SE對應于W2S-I,而在SE數據上訓練SE對應于自我改進。總體而言,此設置比較了WC數據上的W2S-I與SE數據上的自我改進。
三種設置及其對應的微調范式的總結見表1。
2.4. 實驗設置
數據集:論文使用MATH和GSM-8K作為推理數據集,因為它們廣泛用于數學問題解決。具體而言,MATH包含不同難度級別的競賽級問題(級別(1-5)),而GSM-8K包含小學級別的數學問題。每個數據集在其訓練分割中包含7500個數學問題。論文在MATH測試分割的500個問題和GSM-8K測試分割的1319個問題上評估模型。此外,論文使用MATH測試分割的500個問題和GSM-8K的500個問題作為驗證數據集。論文還使用Functional MATH數據集進行遷移學習研究。此外,論文在附錄wedge中展示了一個編碼任務的結果。
數據生成:論文使用Gemma2模型進行合成數據生成,其中預訓練的Gemma2-9B和Gemma2-27B分別充當WC和SE模型。論文為MATH問題生成解決方案時采用4次提示,為GSM-8K問題生成解決方案時采用8次提示。由于9B模型大約比27B模型小3倍,在固定的采樣計算預算下,論文可以為Gemma2-9B每問題采樣3倍多的候選解決方案。對于論文的實驗,論文考慮兩種采樣預算:低預算,其中論文分別從Gemma2-27B和Gemma2-9B每問題生成1個和3個候選解決方案;高預算,其中論文每問題分別生成10個和30個候選解決方案。此外,論文研究了在功能性MATH數據集上,針對高采樣預算下訓練的模型在推理能力上的遷移。
模型微調:論文在表1中總結了微調設置的詳細信息。在學生-LM微調設置中,論文對Gemma-7B模型(Team et al., 2024a)進行微調,數據來自Gemma2-9B(WC)和Gemma2-27B(SE)。此外,論文分別使用Gemma2-9B和Gemma2-27B進行WC-LM和SE-LM微調設置。進一步地,論文使用人類編寫的解決方案作為基準事實,對不同設置下的LM進行訓練。論文在附錄中提供了微調的詳細信息overlinequadquadquad。
合成數據評估:為了評估SE和WC模型生成的合成數據的質量,論文測量了假陽性率,以及在固定成本下的覆蓋率和多樣性。論文從7 varphi3 k 心相似的預算中為兩個模型提供相同的支持。同樣,論文比較了論文的SE和W C模型的diversity@k和diversity@3k。由于FPR不能自動計算,論文使用兩個代理來計算它:1 - 對數據子集的人工評估,其中隨機選擇了每個模型的50個解決方案,并由作者對其推理正確性進行評分,以及 _2 - 自動評估,論文采樣了500個解決方案并提示Gemini-Pro-1.5(Reid et al., 2024)來評估推理路徑的正確性。為了采樣解決方案,對于MATI數據集,論文從每個多樣性級別中均勻選擇。在論文的實驗中,論文發現人工和自動評估的FPR估計值彼此接近。論文在附錄B中提供了一些假陽性實例的定性示例。
評估微調模型:論文使用pass@1 準確度來評估微調語言模型(LMs)的性能。具體而言,論文針對測試集中的每個問題生成一個單一解決方案(零樣本),使用微調后的LM進行采樣溫度為0.0(貪心解碼),并計算最終答案與標準答案匹配的問題百分比。此外,論文還報告了maj@k ( k=1, 4, 8, 16 ) 的部分實驗結果,其中每個問題生成 boldsymbolk 個解決方案,采樣溫度為 0.7,并選擇在 k 個樣本中出現頻率最高的最終答案。小規模、弱化,但更優:通過計算優化采樣訓練大型語言模型推理器
圖 3 ~ | MATH 數據集的合成數據分析。在兩個采樣預算下,Gemma2-27B 和 Gemma2-9B 在 MATH 數據集上的正樣本率。
2.5. 實驗與結果
論文沿著幾個軸比較了 WC 和 SE 模型的數據。首先,論文沿著各種質量指標分析數據。隨后,論文展示了不同設置下的監督微調結果。最后,論文進行了消融研究,以研究數據集大小、采樣策略和質量維度在模型性能中的作用。
2.5.1. 合成數據分析
覆蓋率:論文的目標是理解在固定采樣預算下,從 WC 和 SE 模型生成解決方案的優缺點。論文在圖 3 中展示了 MATH 在低和高采樣預算下的覆蓋率、多樣性和假陽性率。GSM-8K 的結果在附錄 - 圖 15 中展示。論文發現,在覆蓋率方面,Gemma2-9B(WC)在低和高采樣預算下分別比 Gemma2-27B(SE)高出 11% 和 6%,對于 MATH 數據集,以及 8% 和 1% 對于 GSM-8K。這突顯了 WC 模型更高的樣本數量有助于解決更多獨特的推理問題。
此外,論文觀察到,在 MATH 數據集中,WC 模型的覆蓋率在高采樣預算下隨著不同難度級別的增加而增加(見附錄 - 圖 16)。這突顯了在固定采樣預算下,WC 模型生成的合成數據可以解決更多不同難度級別的獨特問題,相比之下 SE 模型。此外,論文提供了一個定性示例,該示例通過 Gemma2-9B 的重復采樣得到解決,但在固定的高采樣預算下,Gemma2-27B 仍未解決(表 5)。
多樣性:Gemma2-9B 生成的數據在 MATII 數據集上的多樣性比 Gemma2-27B 高出 86% 和 125%,在 GSM-8K 數據集上則高出 134% 和 158%。這表明 W C 模型生成的合成數據中存在許多獨特的推理鏈,這些推理鏈能夠導向正確的解決方案。論文還觀察到,在高采樣預算下,MATH 數據集的絕對多樣性得分低于 GSM-8K,這表明在重復采樣時,模型為更具挑戰性的數據集生成的正確解決方案更少。
假陽性率(FPR):由于論文利用最終答案的正確性來篩選合成數據,因此并未移除包含錯誤中間推理步驟的解決方案。論文的人工評估顯示,在 MATH 和 GSM-8K 數據集上,WC 生成的解決方案的 FPR 分別比 SE 生成的解決方案高出 7% 和 2%。自動評估的趨勢與人工評估相似。鑒于問題難度的差異,論文注意到,絕對值與MATH數據集相比,GSM-8K數據集的FPR(假陽性率)要低得多。論文還注意到,推理步驟的自動驗證也可能存在錯誤,這仍然是一個開放問題。
圖 4 監督微調結果(MATH)。在固定采樣預算下,對來自WC(Gemma2-9B)和SE(Gemma2-27B)模型的MATH數據進行微調的各種語言模型的結果。論文觀察到,使用WC模型樣本的訓練始終優于使用SE數據的訓練。
圖 5 mid 監督微調結果(GSM-8K)。在固定采樣預算下,對來自WC(Gemma2-9B)和SE(Gemma2-27B)模型的GSM-8K合成數據進行各種語言模型微調的結果。論文觀察到,使用WC模型樣本進行訓練的推理器比使用SE數據訓練的推理器更強。
鑒于高覆蓋率和多樣性與高FPR的混合信號,目前尚不清楚從WC模型還是SE模型采樣以訓練強推理器是否是計算最優的。論文將在下一節中研究這個問題。
2.5.2. 訓練的計算最優性結果
論文比較了從Gemma2-9B(WC)和Gemma2-27B(SE)模型生成的合成數據在MATH和GSM-8K數據集上的效用,這些數據集涵蓋了圖4和圖5中不同的微調范式。此外,論文還展示了使用原始訓練集中人類編寫的思維鏈進行訓練的結果作為基線。
圖 6 | 泛化結果(功能性 MATH)。在功能性 MATH 數據集上,使用 MATH 數據在高采樣預算下生成的合成數據訓練的模型的性能。結果表明,在固定采樣預算下,使用 WC 數據訓練增強了模型對 SE 數據的泛化能力。
學生-LM 微調。論文發現,使用 WC 生成的合成數據微調的 Gemma-7B 模型,在性能上始終優于使用 SC 數據微調的模型。具體而言,對于 MATH 數據集,在低和高采樣預算下分別獲得了 6% 和 5.8% 的相對增益,而對于 GSM-8K 數據集,則分別為 4.2% 和 1.3%。與普遍認為更強大的模型更適合知識蒸餾的觀點相反,論文的結果表明,使用 WC 數據進行微調在計算上比使用 SE 數據更為優化。
WG-LM 微調。論文比較了Gemma2-9B在WC數據(即自生成數據)和SE數據(即來自Gemma2-27B的數據)微調后的性能。MATH和GSM-8K的結果分別在圖 4 和 5中報告。論文觀察到,自生成數據(WC數據)相較于從強模型中進行知識蒸餾(SE數據)有所提升,在MATH數據集上,低和高采樣預算下分別實現了3.8%和2%的相對增益,而在GSM-8K數據集上,低采樣預算下實現了1.5%的增益。然而,論文發現,在高采樣預算下,使用WC數據微調的WC模型在GSM-8K數據集上與SE數據相當。這主要是因為GSM-8k數據集的難度較低,在較高采樣預算下趨于飽和(見圖 15a)。有趣的是,論文的實證發現表明,在自身生成的合成數據上訓練WC模型比從更強模型中蒸餾更為計算優化。
SE-LM 微調結果。論文展示了使用 Gemma2-9B 生成數據和自生成數據對 Gemma2-27B 進行微調的結果。MATH 和 GSM-8K 數據集的結果分別在圖 angle_big( big) 和圖 5c 中報告。令人驚訝的是,論文觀察到使用 WC 數據微調的模型在 MATH 數據集上表現優于 SE 數據,在低和高采樣預算下分別實現了 5.8% 和 4.3% 的相對增益,而在 GSM-8K 數據集上則分別為 1.2% 和 1.5%??紤]到 Gemma2-27B 數據預期比 Gemma2-9B 數據更符合分布,這一結果更加令人意外。與普遍認為自生成數據或來自更強模型的數據更好的觀點相反,論文的實證研究發現,在 W2S-I 設置下使用 WC 數據訓練模型可能比在其自身數據上進行自我改進訓練更為計算優化。這一結果還確立了一種新的范式,即通過從遠小于前沿模型的模型中生成合成數據,以計算高效的方式改進前沿模型。
泛化能力。在此,論文旨在研究使用 WC 和 SE 數據訓練的模型的遷移能力。具體而言,論文在高采樣預算下,對使用合成解決方案微調的 MATH 數據集模型在 Functional MATH 數據集上進行評估。圖 6 的結果顯示,使用 WC 數據微調的 Gemma-7B 模型持續優于使用 SE 數據,其中,相對增益范圍在不同boldsymbolk值下為5.8%-6.5%。此外,論文觀察到,使用自生成數據微調的Gemma2-9B模型在不同boldsymbolk值下實現了2.5%-4.5%的相對增益,超過了使用Gemma2-27B數據進行知識蒸餾的性能。此外,使用WC數據微調的Gemma2-27B模型與SE數據非常接近,除了k=8時存在2%的相對增益差距。論文的結果強調,使用WC數據微調語言模型在固定采樣預算下增強了相對于SE數據的泛化能力。
圖 7 | 數據集大小的影響。在不同訓練集大小下,微調后的語言模型在來自WC和SE模型的合成數據上的性能表現。使用WC數據進行訓練的模型在兩個數據集大小上都優于使用SE數據進行訓練的模型。
要點:總的來說,論文的發現挑戰了傳統智慧,即主張在SE模型樣本上進行訓練,通過展示在WC模型樣本上訓練可能在各種任務和設置中更計算優化。
2.5.3. 消融研究
數據集大小的影響:論文研究了來自WC模型的合成數據在不同數據集大小下的益處是否仍然存在。論文在高預算下對MATH數據集重復了實驗,但在僅能訪問500個訓練數據(從訓練集中隨機選擇)時。論文在圖7中展示了微調模型的結果。論文觀察到,使用wC數據訓練的模型優于使用SE數據訓練的模型,分別為三個范式實現了12.939%、11.4%和5.1%的相對增益。這突顯了在固定采樣預算的低問題體制下,從WC模型生成更多數據而不是從SE模型生成數據的效用。
默認與計算最優采樣對比:廉價語言模型(LM)的采樣策略:論文預期,先前之所以傾向于使用強模型(SE)數據而非弱模型(WC)數據,是因為它們在測試環境中采用了等量樣本生成的方式(例如,參見(Singh et al., 2023)),而非計算資源匹配的設置。為了驗證這一點,論文針對MATH和GSM-8K數據集,從WC模型中每個問題僅生成一個解決方案(數量匹配),并在篩選出最終答案正確性的基礎上,對這些生成數據在三種微調設置下進行模型訓練。隨后,論文對比了使用合成數據訓練的模型性能,其中每個問題從WC模型生成3個解決方案,采樣計算量與SE模型相匹配。結果如圖8所示。論文發現,使用數量匹配的WC數據訓練的模型,其性能不如使用計算匹配的WC數據訓練的模型,且相較于使用SE數據訓練的模型效果更差。這表明,未來在比較弱模型與強模型生成的合成數據時,應采用計算資源匹配的采樣策略。
圖 8 數字匹配采樣與計算匹配采樣在WC模型中的比較。論文報告了在低采樣預算下,使用WC和SE模型生成的合成數據對多種語言模型進行微調的結果。傳統上,從業者會在從兩個模型中固定數量的樣本上比較訓練模型的性能。然而,論文觀察到,使用與SE模型相同采樣預算獲取的WC模型樣本,其性能提升更大。
覆蓋率和多樣性:論文旨在理解覆蓋率和多樣性在提升使用WC生成合成數據訓練模型性能中的作用。為此,對于MATH數據集,論文將原始高采樣(每個問題30個解決方案)的WC數據集視為(高覆蓋率,高多樣性)數據集。然后,論文通過僅從樣本中選擇每個問題的一個正確解決方案來構建一個(高覆蓋率,低多樣性)版本。這使得原始WC數據集的多樣性從11降低到 1,同時保持了覆蓋率。論文還創建了一個(低覆蓋率,低多樣性)數據集,其中論文僅從WC模型生成每個問題的一個解決方案,并對其最終答案的正確性進行過濾。該數據集的覆蓋率(27%)低于每個問題30個解決方案的WC數據集(43%)。論文在這些數據集上對三種微調設置進行模型訓練,并在圖 emptyset 中展示結果。論文的結果表明,在所有設置中,高覆蓋率和高多樣性數據優于高覆蓋率和低多樣性數據,而高覆蓋率和低多樣性數據優于低覆蓋率和低多樣性數據。這表明覆蓋率和多樣性在從小型語言模型訓練強大推理器時都起著關鍵作用。
圖 9 | 理解覆蓋率和多樣性在利用WC模型訓練強推理器中的作用。論文比較了通過收集(a)每個問題1個解決方案(低多樣性,低覆蓋率),(b)每個問題30個解決方案(高多樣性,高覆蓋率),以及(c)每個問題30個解決方案但僅保留一個正確解決方案(高覆蓋率,低多樣性)獲得的合成數據訓練語言模型(LMs)的性能。論文發現,高多樣性和覆蓋率都有助于訓練強推理器。
2.6. 擴展至SOTA的語言模型
在前述實驗中,論文專注于從開放式LMs獲取合成數據。在這里,論文的目標是在固定采樣預算下,展示來自較弱SoTA LM的數據能夠訓練出比更強SoTA LM更好的推理器。為此,論文將論文的方法擴展到從Gemini-1.5-Pro和Gemini-1.5-Flash采樣數據。由于模型大小未公開,論文利用每輸出token的定價比例作為代理來執行計算匹配采樣。截至2024年8月,論文注意到每百萬輸出token的價格分別為Gemini-1.5-Pro的10.5和Gemini-1.5-Flash的0.3。因此,論文從1.5-Pro和1.5-Flash分別采樣1個和35個解決方案。論文在MATH數據集上進行了實驗。
圖10 | 論文在由最先進的語言模型Gemini-1.5-Pro和Gemini-1.5-Flash生成的合成數據上對Gemma模型(7B/9B/27B)進行微調。論文發現,使用Flash生成的數據進行微調不僅在與Gemini-1.5-Pro相同的采樣成本下始終優于使用Pro生成的數據,而且在約0.15倍的成本下也表現更佳。
論文對Gemma- 7 B、Gemma2- 9 B 和 Gemma2-27B LMs 進行了知識蒸餾,使用來自Pro(SED)和Flash(WC)模型的合成數據。論文在圖10中展示了結果。有趣的是,論文發現使用WC數據進行微調優于使用SE數據,分別為Gemma- 7 B、Gemma2- 9 B 和 Gemma2-27B 分別實現了31.6%、14.4%和10.9%的相對增益。這可以歸因于在固定采樣預算下模型覆蓋率的差異,1.5-Pro和1.5-Flash的覆蓋率分別為61.1%和81%。
降低數據采樣的成本。此外,論文研究了使用比從SE模型中收集每個問題一個解決方案更經濟的WC數據來訓練LMs。具體而言,論文通過從最先進的LMs Gemini-1.5-Pro和Flash(WC)模型中為每個問題采樣5個解決方案來創建數據集,這在價格上比從Pro(SE)模型生成一個解決方案經濟7倍(Phi)。在訓練LMs于0.15倍成本數據的情況下(圖10),論文發現使用Flash生成的數據進行微調不僅在采樣成本上與Gemini-1.5-Pro相同,而且在0.15倍成本下也能表現更優。
要點:論文證明了從較弱的SoTA LM中進行價格匹配采樣產生的推理器優于從較強的SoTA模型中微調的數據
圖11 | 開放語言模型在MATH數據集上性能隨時間的變化。擬合的趨勢線表明,小型語言模型(LM)的質量隨時間提升速度比大型語言模型(LV)更快。這突顯了論文關于利用小型LM訓練強大推理者的發現將在未來變得越來越相關。
本文轉載自 ??AI帝國??,作者:無影寺
