「think step by step」還不夠，讓模型「think more steps」更有用

作者：機器之心 2024-01-25 11:38:11

本文對思維鏈的推理步長進行了控制變量實驗，發(fā)現(xiàn)推理步長和答案的準確性是線性相關的，這種影響機制甚至超越了問題本身所產(chǎn)生的差異。

如今，大型語言模型（LLM）及其高級提示策略的出現(xiàn)，標志著對語言模型的研究取得了重大進展，尤其是在經(jīng)典的 NLP 任務中。這其中一個關鍵的創(chuàng)新是思維鏈（CoT）提示技術，該技術因其在多步驟問題解決中的能力而聞名。這項技術遵循了人類的順序推理，在各種挑戰(zhàn)中表現(xiàn)出了優(yōu)秀的性能，其中包括跨域、長泛化和跨語言的任務。CoT 及其富有邏輯的、循序漸進的推理方法，在復雜的問題解決場景中提供了至關重要的可解釋性。

盡管 CoT 取得了長足的進展，但研究界尚未就 CoT 及其變體的具體機制和有效原因達成共識。這種知識差距意味著提高 CoT 性能仍是一個探索領域。而這種探索主要依賴于試錯，因為目前還缺乏改進 CoT 效果的系統(tǒng)性方法論，研究人員只能依賴猜測和實驗。但是這也同時表明該領域存在著重要的研究機遇：對 CoT 的內(nèi)部運作形成更深入、更結構化的理解。如果實現(xiàn)這個目標，不僅能揭開當前 CoT 過程的神秘面紗，還能為在各種復雜的 NLP 任務中更可靠、更高效地應用這種技術鋪平道路。

來自美國西北大學、利物浦大學和新澤西理工大學等的研究者們，進一步探討了推理步驟的長度與結論準確性之間的關系，幫助人們加深關于如何有效解決 NLP 問題的理解。下面這篇文章探索了推理步驟是否是促使 CoT 發(fā)揮作用的 prompt 中最關鍵的部分（見圖 1）。本文實驗中嚴格的控制變量，特別是在加入新的推理步驟時，研究者會確保不會引入額外的知識。在零樣本實驗中，研究者將初始 prompt 從「請逐步思考」調(diào)整為「請逐步思考，并且盡可能思考出更多的步驟」。對于小樣本問題，研究者設計了一個實驗，在保持所有其他因素不變的情況下，擴展基礎推理步驟。

論文標題：The Impact of Reasoning Step Length on Large Language Models
論文鏈接：https://arxiv.org/pdf/2401.04925.pdf

本文的第一組實驗評估了在上述策略下，使用 Auto-CoT 技術，在零樣本和小樣本任務中推理性能的提高情況。隨后，本文評估了不同方法在不同推理步數(shù)下的準確性。接著，研究者擴大了調(diào)研對象，比較了本文提出的策略在不同 LLM（如 GPT-3.5 和 GPT-4）上的有效性。研究結果表明，在一定范圍內(nèi)，推理鏈的長度與 LLM 的能力之間存在明顯的相關性。但耐人尋味的是，當研究者在推理鏈中引入誤導信息時，性能仍然有所提高。這推導出了一個重要結論：影響性能的關鍵因素似乎是思維鏈的長度，而不是其準確性。

本文的主要發(fā)現(xiàn)如下所示：

對于小樣本 CoT，推理步數(shù)和精度之間存在直接的線性關系。這為優(yōu)化復雜推理中的 CoT 提示提供了一種可量化的方法。具體來說，增加 prompt 中的推理步驟大大提高了 LLM 在多個數(shù)據(jù)集上的推理能力。反過來，即使在保留了關鍵信息的情況下，縮短推理步驟也會顯著削弱模型的推理能力。
即使是不正確的推理，如果能保持必要的推理長度，也能產(chǎn)生有利的結果。例如，在數(shù)學問題等任務中，過程中產(chǎn)生的中間數(shù)字出錯也不太會影響最終結果。
增加推理步驟所產(chǎn)生的收益大小受限于任務本身：更簡單的任務需要更少的步驟，而更復雜的任務則從更長的推理序列中獲得顯著收益。
增加零樣本 CoT 中的推理步驟也可以顯著提高 LLM 的準確性。

研究方法

研究者通過分析來檢驗推理步驟與 CoT 提示性能之間的關系。方法的核心假設是，推理過程中的序列化步驟是 CoT 提示中最關鍵的組成部分，能夠使語言模型在生成回復內(nèi)容時應用更多的邏輯進行推理。為了測試這一觀點，本文設計了一個實驗，在 CoT 的推理過程中先后擴展和壓縮基礎推理步驟，同時保持所有其他因素不變。具體而言，研究者只系統(tǒng)地改變推理步驟的數(shù)量，不引入新的推理內(nèi)容或刪除已有的推理內(nèi)容。研究者在下文中評估了零樣本和少樣本的 CoT 提示。整個實驗過程如圖 2 所示。通過這種控制變量分析的方法，研究者闡明了 CoT 如何影響 LLM 生成邏輯健全的應答能力。

零樣本 CoT 分析

在零樣本場景中，研究者將最初的 prompt 從「請逐步思考」修改為「請逐步思考，并且盡可能思考出更多的步驟」。之所以做出這一改變，是因為與少樣本 CoT 環(huán)境不同，使用者不能在使用過程中引入額外的推理步驟。通過改變初始 prompt，研究者引導 LLM 進行了更廣泛的思考。這種方法的重要性在于能夠提高模型的準確性，而且不需要少樣本場景中的典型方案：增量訓練或額外的示例驅(qū)動優(yōu)化方法。這種精細化策略確保了更全面、更詳細的推理過程，顯著提高了模型在零樣本條件下的性能。

小樣本 CoT 分析

本節(jié)將通過增加或壓縮推理步驟來修改 CoT 中的推理鏈。其目的是研究推理結構的變化如何影響 LLM 決策。在推理步驟的擴展過程中，研究者需要避免引入任何新的任務相關信息。這樣，推理步驟就成了唯一的研究變量。

為此，研究者設計了以下研究策略，以擴展不同 LLM 應用程序的推理步驟。人們思考問題的方式通常有固定的模式，例如，一遍又一遍地重復問題以獲得更深入的理解、創(chuàng)建數(shù)學方程以減輕記憶負擔、分析問題中單詞的含義以幫助理解主題、總結當前狀態(tài)以簡化對主題的描述。基于零樣本 CoT 和 Auto-CoT 的啟發(fā)，研究者期望 CoT 的過程成為一種標準化的模式，并通過在 prompt 部分限制 CoT 思維的方向來獲得正確的結果。本文方法的核心是模擬人類思維的過程，重塑思維鏈。表 6 中給出了五種通用的 prompt 策略。

單詞思維：這種策略是要求模型解釋單詞并重建知識庫。通常情況下，一個單詞有多種不同的含義，這樣做的效果是讓模型跳出條條框框，根據(jù)生成的解釋重新解釋問題中的單詞。這一過程不會引入新的信息。在 prompt 中，研究者給出了模型正在思考的單詞的例子，模型會根據(jù)新問題自動挑選單詞進行這一過程。
問題重載：反復閱讀問題，減少其他文本對思維鏈的干擾。簡而言之，讓模型記住問題。
重復狀態(tài)：與反復閱讀類似，在一長串推理之后加入一個當前狀態(tài)的小結，目的是幫助模型簡化記憶，減少其他文本對 CoT 的干擾。
自我驗證：人類在回答問題時會檢查自己的答案是否正確。因此，在模型得到答案之前，研究者增加了一個自我驗證過程，根據(jù)一些基本信息來判斷答案是否合理。
方程制備：對于數(shù)學問題，制作公式可以幫助人類總結和簡化記憶。對于一些需要假設未知數(shù) x 的問題，建立方程是一個必不可少的過程。研究者模擬了這個過程，并讓模型嘗試在數(shù)學問題中建立方程。

總體而言，本文的即時策略都在模型有所體現(xiàn)。表 1 展示的內(nèi)容是其中一個例子，其他四種策略的示例可以在原論文中查看。

實驗及結果

推理步驟與準確性的關系

表 2 比較了使用 GPT-3.5-turbo-1106 在三類推理任務的八個數(shù)據(jù)集上的準確性。

得益于研究者能夠?qū)⑺季S鏈過程標準化，接下來就可以量化在 CoT 的基本流程中增加步驟而對準確性的提高程度。本實驗的結果可以回答之前提出的問題：推理步驟與 CoT 性能之間的關系是什么？該實驗基于 GPT-3.5-turbo-1106 模型。研究者發(fā)現(xiàn)，有效的 CoT 過程，例如在 CoT 過程中增加多達六個步驟的額外思維過程，會讓大型語言模型推理能力都會得到提高，并且是在所有的數(shù)據(jù)集上都有體現(xiàn)。換句話說，研究者發(fā)現(xiàn)準確性和 CoT 復雜性之間存在一定的線性關系。

錯誤答案的影響

推理步驟是影響 LLM 性能的唯一因素嗎？研究者做了以下嘗試。將 prompt 中的一個步驟更改為不正確的描述，看看它是否會影響思維鏈。對于這個實驗，本文研究者在所有 prompt 中添加一個錯誤。有關具體示例，請看表 3。

對于算術類型的問題，即使其中一個 prompt 結果出現(xiàn)偏差，對推理過程中思維鏈的影響也是微乎其微的，因此研究者認為在解決算術類型的問題時，大語言模型對提示中思維模式鏈的學習要多于單一計算。對于類似硬幣數(shù)據(jù)的邏輯問題，prompt 結果中的一個偏差往往會帶來整個思維鏈的支離破碎。研究者同樣使用 GPT-3.5-turbo-1106 完成這項實驗，并根據(jù)之前實驗得出的每個數(shù)據(jù)集的最佳步數(shù)保證了性能。結果如圖 4 所示。

壓縮推理步驟

先前的實驗已經(jīng)證明了增加推理步驟可以提高 LLM 推理的準確性。那么在小樣本問題中壓縮基礎推理步驟會損害 LLM 的性能嗎？為此，研究者進行了推理步驟壓縮實驗，并采用實驗設置中概述的技術，將推理過程濃縮成 Auto CoT 和 Few-Shot-CoT，減少推理步驟數(shù)。結果如圖 5 所示。

結果顯示，模型的性能顯著下降，回歸到與零樣本方法基本相當?shù)乃健＿@個結果進一步表明，增加 CoT 推理步驟可以提高 CoT 性能，反之亦然。

不同規(guī)格模型的性能對比

研究者還提出疑問，我們能否觀察到縮放現(xiàn)象，即所需的推理步驟與 LLM 的大小有關？研究者研究了各種模型（包括 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4）中使用的平均推理步驟數(shù)。通過在 GSM8K 上的實驗計算出了每個模型達到峰值性能所需的平均推理步驟。在 8 個數(shù)據(jù)集中，該數(shù)據(jù)集與 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4 的性能差異最大。可以看出，在初始性能最差的 text-davinci-002 模型中，本文提出的策略具有最高的提升效果。結果如圖 6 所示。

協(xié)同工作實例中問題的影響

問題對 LLM 推理能力的影響是什么？研究者想探討改變 CoT 的推理是否會影響 CoT 的性能。由于本文主要研究推理步驟對性能的影響，所以研究者需要確認問題本身對性能沒有影響。因此，研究者選擇了數(shù)據(jù)集 MultiArith 和 GSM8K 和兩種 CoT 方法（auto-CoT 和 few-shot-CoT）在 GPT-3.5-turbo-1106 中進行實驗。本文的實驗方法包括對這些數(shù)學數(shù)據(jù)集中的樣本問題進行有意的修改，例如改變表 4 中問題的內(nèi)容。

值得注意的是，初步觀察表明，這些對于問題本身的修改對性能的影響是幾個要素里最小的，如表 5 所示。

這一初步發(fā)現(xiàn)表明，推理過程中步驟的長度是大模型的推理能力最主要的影響因素，問題本身的影響并不是最大的。

更多詳細內(nèi)容，請閱讀原論文。

責任編輯：張燕妮來源：機器之心

AI 數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「think step by step」還不夠，讓模型「think more steps」更有用

研究方法

實驗及結果