更小、更弱,卻更優:通過計算最優抽樣訓練大語言模型推理器
一、結論寫在前面論文標題:Smaller,Weaker,YetBetter:TrainingLLMReasonersviaComputeOptimalSampling論文鏈接:??https:arxiv.orgpdf2408.16737??利用來自強大語言模型(LMs)的高質量合成數據進行訓練是提升LMs推理性能的常見策略。論文重新審視了在固定推理預算(例如,FLOPs)下,這一策略是否為計算最優。為此,論文探究了使用更強但更昂貴(SE)模型與較弱但更廉價(WC)模型生成合成數據之間的權衡。論文評估了生成...