GPT-4 MATH準確率最高漲至84.3%！港中文、清華等七所頂尖高校提出全新CSV方法

作者：新智元 2023-09-01 14:06:00

讓模型用代碼自我驗證解決方案，結合多數投票集成機制，推理準確率可以提升近30%！

雖然大型語言模型（LLMs）在常識理解、代碼生成等任務中都取得了非常大的進展，不過在數學推理任務上仍然存在很大改進空間，經常會生成無意義、不準確的內容，或是無法處理過于復雜的計算。

最近推出的一些語言模型，如GPT-4, PaLM-2都在數學推理上取得了重大進步，特別是OpenAI的最新版模型GPT-4 Code Interpreter，在較困難的數學推理數據集上也展現出了很高的性能。

為了探索「代碼生成任務」對「語言模型推理能力」的影響，來自香港中文大學、南京大學、中國科學技術大學、清華大學、香港城市大學、長沙理工大學和塔夫茨大學的研究人員聯合發布了一篇論文，通過在代碼使用頻率（Code Usage Frequency）上引入不同的約束限制進行實驗驗證。

論文鏈接：https://arxiv.org/abs/2308.07921

實驗結果顯示，GPT-4 Code Interpreter模型的成功在很大程度上要歸功于「在生成和執行代碼、評估代碼執行的輸出以及在收到不合理的輸出」時糾正其解決方案方面的強大能力。

基于上述結論，研究人員提出了一種新穎且高效的提示方法，顯式的基于代碼的自我驗證（CSV, code-based self-verification），以進一步提高GPT-4代碼解釋器的數學推理潛力。

該方法在GPT-4 Code Interpreter上采用zero-shot提示，以促使模型使用代碼來對答案進行自我驗證。

在驗證狀態為「假」的情況下，模型將自動修改其解決方案，類似于人類在數學考試中糾錯的過程。

此外，研究人員還發現驗證結果的狀態可以指示解決方案的置信度，并進一步提高多數表決的有效性。

通過結合GPT-4 Code Interpreter和CSV方法，在MATH數據集上的零樣本準確率實現了從54.9%到84.3%的巨大提升。

LLM的推理能力從何而來？

為了探索代碼的使用對GPT4-Code解決數學問題能力的影響，研究人員采用了一種很直接的方法，即通過精心設計的提示來限制GPT4-Code與代碼的交互。

具體包括兩種代碼限制提示以及一種基礎提示用來對比：

提示1：No code usage is allowed（不允許使用代碼）

GPT4-Code不允許在其解決方案中添加代碼，也就是說模型只能完全依賴自然語言（NL）推理鏈，類似于思維鏈（CoT）框架中的解決方案，由此產生的推理步驟序列叫做CNL，如上圖中（a）所示。

提示2：Code can be used only once（代碼只能使用一次）

GPT4-Code只能用單個代碼塊內的代碼來生成解決方案，類似于之前的PAL方法，論文中將此序列稱為CSL，即使用符號語言（SL），如Python進行推理，上圖中（b）為樣例。

基本提示：對代碼使用沒有任何限制。

推理序列可表示為，其中每個步驟都由自然語言和 Python 代碼組成，示例如上圖中（c）所示。

除此之外，研究人員還引入了代碼使用頻率（Code Usage Frequency）來記錄不同提示下的代碼執行次數，結果表明，GPT4-Code的高性能與高代碼使用頻率之間存在正相關。

具體來說，提示2使用的代碼量比提示1多了一倍，并且提示2比提示1的準確率提高了 6.9%，表明Python代碼鏈CSL比自然語言鏈CNL更能提高計算能力，這一觀察結果與之前基于Python的提示方法結果一致。

不過只能使用一次代碼也存在缺陷，當代碼輸出引發錯誤或產生非預期的結果時，模型缺乏自我調試（self-debugging）的能力。

在對比提示2和基本提示時，可以發現，基本提示始終能生成包含多個代碼使用實例的解決方案，即代碼使用頻率更高，并且基本提示的準確性也明顯提高。

具體可以歸因于代碼的兩個優勢：

1. 生成一些簡短的代碼塊，可以分割自然語言推理步驟，從而帶來更高的準確率；

2. 模型有能力評估代碼執行結果，并在結果中發現錯誤或不合邏輯的解決步驟，并進行修正。

基于代碼的自驗證CSV

受代碼使用頻率分析觀察結果的啟發，研究人員決定利用GPT4-Code的代碼生成、代碼評估、代碼執行，以及自動調整解決方案等能力來增強方案驗證，以提高推理性能。

CSV的主要流程就是對GPT-Code輸入提示，來顯式地通過代碼生成來驗證答案正確性。

對解決方案C的驗證結果V可以分為「真」、「假」、「不確定」三類。

與CSV結合后，模型能夠使用代碼來驗證答案，然后在驗證結果為「錯誤」的情況下審查并調整得出解決方案的方式，從而獲得正確答案。

在完善和修正初始解決方案后，準確率可以得到顯著提高。

值得注意的是，驗證（verification）和修正（rectification）階段都是基于代碼的，所以必然會導致代碼使用頻率的增加。

在 GPT4-Code 出現之前，先前的框架大多依賴于外部LLM使用自然語言進行驗證和精心設計的少樣本提示。

相比之下，CSV方法僅依賴于GPT4-Code的直接提示，以零樣本的方式簡化了流程，利用其先進的代碼執行機制來自主驗證和獨立修正解決方案。

研究人員還將驗證階段集成到了加權多數表決（majority voting）中，為驗證過程的各個狀態分配了不同的權重。

為了防止答案被確認為「假」后不再進行其他驗證，研究人員將三種狀態分配了不同的權重：wT, wF和wU，可以增加系統的可靠性。

為了簡單起見，集成算法從k個解決方案中提取一對最終答案及其相應的驗證結果，表示為其中v和a分別代表第i個最終答案和最終驗證結果。

因此，每個候選答案 a 的投票得分可以表示為：

最后從所有候選答案中選出得分最高的答案：

實驗結果

MATH數據集

GPT4-Code在MATH基準上的準確率達到了 69.69%，大大超過了之前的方法（53.90%），表明 GPT4-Code在解決數學問題方面表現出很強的能力。

在GPT4-Code的基礎上，文中提出的CSV方法進一步提高了準確性，將準確率提高到了73.54%；

在加入基于代碼的顯式自我驗證和驗證引導的加權多數投票（采樣路徑數為 16）后，結果進一步提高到了84.32%

需要注意的是，雖然增加基于代碼的自我驗證可以提高題目的成績，但具體程度因題目難度、形式而異。

其他數據集

研究人員還在其他推理數據集上應用了CSV方法，包括GSM8K、MMLU-Math 和 MMLU-STEM

從結果上來看，CSV+GPT4-Code在各個數據集上都取得了最優的結果。

與帶有模型選擇功能的GPT-4和 PHP相比，驗證引導的多數表決是減少采樣路徑數量的有效框架。

CSV方法與現有模型在MMLU-Math和MMLU-STEM數據集上的性能對比中，可以看到開源模型明顯優于閉源模型。

為了彌補這一差距，研究人員表示目前已經開始著手準備制作數據集，并將在不久的將來公開發布。

其他開源LLM模型，如LLaMA 2可以利用該數據集進行微調，并進一步提升數學推理能力。

責任編輯：張燕妮來源：新智元

模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4 MATH準確率最高漲至84.3%！港中文、清華等七所頂尖高校提出全新CSV方法

LLM的推理能力從何而來？

基于代碼的自驗證CSV

實驗結果