無需SFT也不用RL,樣本級推理優(yōu)化神器SLOT來了,準(zhǔn)確率輕松+10%
試想一下,如果你參加考試時,可以在答題前花幾秒鐘「適應(yīng)」一下這道具體的題目,你的表現(xiàn)會不會更好?
這正是西湖大學(xué)研究團隊在最新論文中提出的核心思想。他們開發(fā)的 SLOT(Sample-specific Language Model Optimization at Test-time)方法,把每個輸入 prompt 本身當(dāng)作一份「迷你訓(xùn)練數(shù)據(jù)」,讓模型在生成答案前先「學(xué)習(xí)」理解這個具體問題。
更令人驚訝的是,這個方法簡單到離譜:
- 只需要優(yōu)化一個輕量級參數(shù)向量 delta(僅修改最后一層特征)
- 只需要幾步 (比如 3 步) 梯度下降
- 計算開銷幾乎可以忽略不計(僅增加 7.9% 推理時間)
- 完全即插即用,無需修改原模型
- 論文標(biāo)題:SLOT: Sample-specific Language Model Optimization at Test-time
- 論文地址:https://arxiv.org/pdf/2505.12392
- GitHub地址:https://github.com/maple-research-lab/SLOT
效果炸裂
多項基準(zhǔn)測試刷新紀(jì)錄
即便拿最有挑戰(zhàn)性的高性能基線做比較對象,實驗結(jié)果令人矚目 (所有 log 都在開源 github 里):
- Qwen2.5-7B 在 GSM8K 數(shù)學(xué)推理任務(wù)上準(zhǔn)確率從 57.54% 飆升至 66.19%,提升 8.65 個百分點。
- DeepSeek-R1-Distill-Llama-70B 在 GPQA Diamond 上達(dá)到 68.69%,創(chuàng)下 70B 級別開源模型新紀(jì)錄
- 在高難度的 AIME 2024 數(shù)學(xué)競賽題上,多個模型實現(xiàn) 10% 以上的提升
核心創(chuàng)新
把 Prompt 當(dāng)作「測試時訓(xùn)練樣本」
傳統(tǒng)的 LLM 在面對復(fù)雜或特殊格式的指令時經(jīng)常「翻車」,它可能會忽略格式要求或給出錯誤答案。
SLOT 的解決方案優(yōu)雅而簡單:針對單獨一個問題,直接在最后一層特征上加一個 delta 向量,并在問題 prompt 本身上最小化交叉熵?fù)p失即可。
由于僅僅需要在最后一層上優(yōu)化一個加性的 delta 參數(shù)向量,每個問題只需要經(jīng)過一次網(wǎng)絡(luò)推理。通過把輸入給最后一層的中間結(jié)果進(jìn)行緩存,優(yōu)化 delta 的過程幾乎不需要增加計算開銷。
由于方法十分簡單,任何偽代碼公式都多余,這里給出如何把 SLOT 應(yīng)用于你的工作的 transformers 版本代碼(vLLM 版本也已開源)。
以 modeling_qwen.py 里 Qwen2ForCausalLM 模型為例,研究團隊在 forward 函數(shù)里獲得 hidden_states 之后插入這段代碼:首先初始化一個全 0 的 delta 向量,加在 last hidden states 上;然后用當(dāng)前的 prompt 作為訓(xùn)練數(shù)據(jù),delta 作為可學(xué)習(xí)參數(shù),以交叉熵?fù)p失優(yōu)化,得到 sample-specific 的 delta 參數(shù);之后即可用優(yōu)化好的 delta 生成后續(xù) token。
為什么如此有效?
深入分析揭示秘密
研究團隊通過分析發(fā)現(xiàn),SLOT 優(yōu)化后的 delta 會顯著調(diào)整輸出詞匯的概率分布:
- 增強的詞匯:reasoning、think、thinking 等推理相關(guān)詞匯
- 抑制的詞匯:數(shù)字符號(0-9)、模態(tài)動詞(should、will)、結(jié)束符 </s>
這意味著 SLOT 在鼓勵模型「深思熟慮」,避免過早結(jié)束推理或陷入表面的模式匹配。
亮點在于:不同于 SFT 或者 RL 的微調(diào)算法,該方法無需:
- 修改模型架構(gòu)
- 額外的訓(xùn)練數(shù)據(jù)
- 復(fù)雜的采樣策略
- 昂貴的計算資源
廣泛適用
從 1.5B 到 70B,從基礎(chǔ)模型到推理專家
SLOT 在各種規(guī)模和類型的模型上都展現(xiàn)出穩(wěn)定的提升:
- Qwen 系列:1.5B 到 32B 均有提升。
- Llama 系列:包括 Llama-3.1。
- DeepSeek-R1 系列:即使是已經(jīng)專門優(yōu)化過推理能力的模型,仍能獲得顯著提升。
特別值得注意的是,在最具挑戰(zhàn)性的任務(wù)上,SLOT 的提升最為明顯:
- C-Eval Hard 子集:+8.55%
- AIME 2024:部分模型提升超過 13%
- GPQA Diamond: 由 65.66 提升到 68.69 (開源 sota 級別)
結(jié)語
在大模型時代,當(dāng)所有人都在追求「更大、更強」時,SLOT 用一個簡單得「離譜」的想法證明:有時候,讓模型在回答前先「理解」一下問題,就能帶來驚人的效果。