三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈

發(fā)布于 2024-8-9 16:42

瀏覽

0收藏

將語言模型不斷地擴大規(guī)模是可以提高它們的能力。而日常運用的時候，通常將推理限制在一次。要是對于同一個問題進行多次反復的采樣生成，那么是否能夠覆蓋正確的答案？是否能夠被準確的撈出？

三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈-AI.x社區(qū)

最近一項研究進行如下的探索。整個過程如上圖所示，它分為兩個步驟，準備一個問題，然后遵循重復采樣程序，通過具有正溫度（代表著回答多樣性）的LLM中采樣來為給定問題生成很多的K個候選解決方案。第二個步驟使用特定領(lǐng)域的驗證器從生成的樣本中選擇最終答案。

<簡單總結(jié)一下：可以多次生成，但是成本要低且要包含正確答案。在解決了第一個問題之后，還要解決從K個答案，例如10000個中挑出那個正確的。>

1.覆蓋率能上去

覆蓋率的定義為被解決問題的比例，被解決的問題至少要在K個答案中被解開一次。這項研究對SWE-bench Lite這個基準進行重復采樣回答，使用DeepSeek-V2-Coder-Instruct來解決問題具有15.9%的正確率，若僅僅生成一次的回答（樣本）。若讓其生成250次的回答，則覆蓋率飆升至56%。這個成績也遠遠強于前沿模型的單次回答43%正確率。

細心的讀者會提出抗議，會不會比較費錢。其實按照當前的API定價，即便用調(diào)用5次的DeepSeek模型，也比GPT-4o或Claude 3.5 Sonnet的單次回答性價比更高且能夠解決更多的問題。<下面就是價格的對比圖！>

三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈-AI.x社區(qū)

研究中發(fā)現(xiàn)，覆蓋率和樣本數(shù)量之間的關(guān)系通常是對數(shù)線性的，可以用指數(shù)冪律來建模，這表明存在推理時間縮放定律。

在解決 GSM8K和MATH的數(shù)學單詞問題時，Llama-3模型在10000次的樣本中對于正確答案的覆蓋率增長到95%以上。從樣本集合中選擇正確解決方案的常用方法（例如多數(shù)投票或獎勵模型）在超過數(shù)百個樣本時會趨于穩(wěn)定。

三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈-AI.x社區(qū)

在五項任務(wù)中，值得注意的是，使用重復采樣，能夠?qū)WE-bench Lite上的解決率從15.9%提高到56%。

三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈-AI.x社區(qū)

本次的研究將評估限制在MATH和CodeContests數(shù)據(jù)集上，以最大限度地降低推理成本，測試中幾乎每個模型的覆蓋率都有所增加，當應用重復采樣時，較小的模型顯示出最明顯的覆蓋率增加。

在CodeContests上，Gemma-2B的覆蓋率增加了300多倍，從pass@1<1代表1次抽樣>的0.02%增加到pass@10k<10k代表10000次抽樣>的7.1%。使用Pythia-160M解決MATH問題時，覆蓋率從pass@1 的0.27%增加到pass@10k的57%。

這種跨模型覆蓋率增加模式的例外是在 CodeContests 上評估的 Pythia 系列則為例外，所有Pythia模型在這個數(shù)據(jù)集上的覆蓋率都為零，即便10,000個樣本也是如此。推測可能是因為Pythia接受的特定的編碼數(shù)據(jù)比 Llama和Gemma少。

三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈-AI.x社區(qū)

重復采樣可以放大較弱模型的功能，并超越來自較強模型的單個樣本。在這里還是需要證明這種放大比使用大規(guī)模的參數(shù)模型更具成本效益。上圖將之前抽樣次數(shù)的成本采用FLOP（視為成本指標）重新繪制了統(tǒng)計圖。

在MiniF2F、GSM8K和MATH的評估指標上，當FLOP預算固定時，Llama-3-8B-Instruct總是比更大（且更昂貴）的70B模型獲得更高的覆蓋率。然而對于 CodeContests，70B模型幾乎總是更具成本效益！！

每次查詢折算的FLOP公式如下：

三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈-AI.x社區(qū)

LLM的Loss與其訓練計算算力之間的關(guān)系已通過??縮放定律<鏈接溫習！>??講解得很是清晰。這些定律在經(jīng)驗上已經(jīng)被驗證，并激發(fā)了模型開發(fā)人員的信心，相信只要投資大量的算力則能夠得到很棒的模型。

受到訓練縮放定律的啟發(fā)，旨在更好地描述覆蓋率和樣本預算（即多次推理的計算量）之間的關(guān)系，這里觀測到兩個很有意思的想象：

覆蓋率和樣本數(shù)量之間的關(guān)系通常可以用指數(shù)冪律建模。

三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈-AI.x社區(qū)

對于給定的任務(wù)，來自同一家族的不同模型的覆蓋率曲線類似于具有相似斜率但不同水平偏移的 S 曲線

2.如何選擇對的

覆蓋率上去了，那么如何萬里挑一呢？研究發(fā)現(xiàn)在沒有自動驗證器的領(lǐng)域中，從許多代中識別出正確的樣本仍然是未來研究的重要方向。

既然已經(jīng)存在N個回答，如何挑選一個最為最后的答案，就像人生如何選擇一樣至關(guān)重要。第2階段關(guān)注的重點在于多次采樣中如何選擇出最佳答案，以便提高正確率。目前存在主流的三種方法：多數(shù)投票（Majority Voting），獎勵模型選擇（Reward Model Selection），獎勵模型多數(shù)投票（Reward Model Majority Voting）。

三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈-AI.x社區(qū)

研究表明，隨著樣本數(shù)量的增加，前面三種組合式的選擇會隨著樣本數(shù)量的增加而增加，但在100個樣本左右達到飽和。而覆蓋率(圖4）會隨著樣本數(shù)量的增加而繼續(xù)增加，并超過95%。

<！！注意，覆蓋率意味著這么多的備選答案存在正確的，但是并不代表算法可以檢索出正確作為最后的答案！！>

在多數(shù)投票的情況下，這種成功率飽和很容易解釋。隨著樣本數(shù)量的增加，分配給每個答案的投票比例會穩(wěn)定下來，因此成功率也會穩(wěn)定下來。對于某些GSM8K和MATH問題，正確解決方案的采樣概率為1%或更低，因此它們只是少數(shù)樣本。隨著樣本數(shù)量的增加，更多問題會出現(xiàn)罕見的正確解決方案，從而增加覆蓋率，但不會提高多數(shù)投票的成功率。

為了充分利用重復采樣的優(yōu)勢，識別出正確解答一定要能夠解決這些“大海撈針”的場景，識別出稀有的正確樣本。在數(shù)學應用題中，現(xiàn)有工具無法自動驗證答案，研究者發(fā)現(xiàn)覆蓋率與確定最終答案的方法選擇存在很大差距。

<即便抽樣了N次，還是要選擇一個不是？！>。

當使用Llama-3-8B-Instruct解決數(shù)學問題時，覆蓋率從100個樣本的79.8%增加到10,000個樣本的95.3%。然而，多數(shù)投票和使用獎勵模型來選擇最終解答的方法在樣本預算較低的情況下趨于飽和，在同一范圍內(nèi)僅從38.7%擴展到39.8%。

<即便有了正確答案，還是選不中！？>。

這些結(jié)果表明構(gòu)建強大的驗證器仍然是一個懸而未決的問題。

本文轉(zhuǎn)載自??魯班模錘??，作者：龐德公 ????

標簽

覆蓋率

正確率

Llama-3

贊

回復