成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「think step by step」還不夠,讓模型「think more steps」更有用

人工智能 新聞
本文對思維鏈的推理步長進行了控制變量實驗,發(fā)現(xiàn)推理步長和答案的準確性是線性相關的,這種影響機制甚至超越了問題本身所產(chǎn)生的差異。

如今,大型語言模型(LLM)及其高級提示策略的出現(xiàn),標志著對語言模型的研究取得了重大進展,尤其是在經(jīng)典的 NLP 任務中。這其中一個關鍵的創(chuàng)新是思維鏈(CoT)提示技術,該技術因其在多步驟問題解決中的能力而聞名。這項技術遵循了人類的順序推理,在各種挑戰(zhàn)中表現(xiàn)出了優(yōu)秀的性能,其中包括跨域、長泛化和跨語言的任務。CoT 及其富有邏輯的、循序漸進的推理方法,在復雜的問題解決場景中提供了至關重要的可解釋性。

盡管 CoT 取得了長足的進展,但研究界尚未就 CoT 及其變體的具體機制和有效原因達成共識。這種知識差距意味著提高 CoT 性能仍是一個探索領域。而這種探索主要依賴于試錯,因為目前還缺乏改進 CoT 效果的系統(tǒng)性方法論,研究人員只能依賴猜測和實驗。但是這也同時表明該領域存在著重要的研究機遇:對 CoT 的內(nèi)部運作形成更深入、更結構化的理解。如果實現(xiàn)這個目標,不僅能揭開當前 CoT 過程的神秘面紗,還能為在各種復雜的 NLP 任務中更可靠、更高效地應用這種技術鋪平道路。

來自美國西北大學、利物浦大學和新澤西理工大學等的研究者們,進一步探討了推理步驟的長度與結論準確性之間的關系,幫助人們加深關于如何有效解決 NLP 問題的理解。下面這篇文章探索了推理步驟是否是促使 CoT 發(fā)揮作用的 prompt 中最關鍵的部分(見圖 1)。本文實驗中嚴格的控制變量,特別是在加入新的推理步驟時,研究者會確保不會引入額外的知識。在零樣本實驗中,研究者將初始 prompt 從「請逐步思考」調(diào)整為「請逐步思考,并且盡可能思考出更多的步驟」。對于小樣本問題,研究者設計了一個實驗,在保持所有其他因素不變的情況下,擴展基礎推理步驟。

  • 論文標題:The Impact of Reasoning Step Length on Large Language Models
  • 論文鏈接:https://arxiv.org/pdf/2401.04925.pdf

圖片

本文的第一組實驗評估了在上述策略下,使用 Auto-CoT 技術,在零樣本和小樣本任務中推理性能的提高情況。隨后,本文評估了不同方法在不同推理步數(shù)下的準確性。接著,研究者擴大了調(diào)研對象,比較了本文提出的策略在不同 LLM(如 GPT-3.5 和 GPT-4)上的有效性。研究結果表明,在一定范圍內(nèi),推理鏈的長度與 LLM 的能力之間存在明顯的相關性。但耐人尋味的是,當研究者在推理鏈中引入誤導信息時,性能仍然有所提高。這推導出了一個重要結論:影響性能的關鍵因素似乎是思維鏈的長度,而不是其準確性。

本文的主要發(fā)現(xiàn)如下所示:

  • 對于小樣本 CoT,推理步數(shù)和精度之間存在直接的線性關系。這為優(yōu)化復雜推理中的 CoT 提示提供了一種可量化的方法。具體來說,增加 prompt 中的推理步驟大大提高了 LLM 在多個數(shù)據(jù)集上的推理能力。反過來,即使在保留了關鍵信息的情況下,縮短推理步驟也會顯著削弱模型的推理能力。
  • 即使是不正確的推理,如果能保持必要的推理長度,也能產(chǎn)生有利的結果。例如,在數(shù)學問題等任務中,過程中產(chǎn)生的中間數(shù)字出錯也不太會影響最終結果。
  • 增加推理步驟所產(chǎn)生的收益大小受限于任務本身:更簡單的任務需要更少的步驟,而更復雜的任務則從更長的推理序列中獲得顯著收益。
  • 增加零樣本 CoT 中的推理步驟也可以顯著提高 LLM 的準確性。

研究方法

研究者通過分析來檢驗推理步驟與 CoT 提示性能之間的關系。方法的核心假設是,推理過程中的序列化步驟是 CoT 提示中最關鍵的組成部分,能夠使語言模型在生成回復內(nèi)容時應用更多的邏輯進行推理。為了測試這一觀點,本文設計了一個實驗,在 CoT 的推理過程中先后擴展和壓縮基礎推理步驟,同時保持所有其他因素不變。具體而言,研究者只系統(tǒng)地改變推理步驟的數(shù)量,不引入新的推理內(nèi)容或刪除已有的推理內(nèi)容。研究者在下文中評估了零樣本和少樣本的 CoT 提示。整個實驗過程如圖 2 所示。通過這種控制變量分析的方法,研究者闡明了 CoT 如何影響 LLM 生成邏輯健全的應答能力。

圖片

零樣本 CoT 分析

在零樣本場景中,研究者將最初的 prompt 從「請逐步思考」修改為「請逐步思考,并且盡可能思考出更多的步驟」。之所以做出這一改變,是因為與少樣本 CoT 環(huán)境不同,使用者不能在使用過程中引入額外的推理步驟。通過改變初始 prompt,研究者引導 LLM 進行了更廣泛的思考。這種方法的重要性在于能夠提高模型的準確性,而且不需要少樣本場景中的典型方案:增量訓練或額外的示例驅(qū)動優(yōu)化方法。這種精細化策略確保了更全面、更詳細的推理過程,顯著提高了模型在零樣本條件下的性能。

小樣本 CoT 分析

本節(jié)將通過增加或壓縮推理步驟來修改 CoT 中的推理鏈。其目的是研究推理結構的變化如何影響 LLM 決策。在推理步驟的擴展過程中,研究者需要避免引入任何新的任務相關信息。這樣,推理步驟就成了唯一的研究變量。

為此,研究者設計了以下研究策略,以擴展不同 LLM 應用程序的推理步驟。人們思考問題的方式通常有固定的模式,例如,一遍又一遍地重復問題以獲得更深入的理解、創(chuàng)建數(shù)學方程以減輕記憶負擔、分析問題中單詞的含義以幫助理解主題、總結當前狀態(tài)以簡化對主題的描述。基于零樣本 CoT 和 Auto-CoT 的啟發(fā),研究者期望 CoT 的過程成為一種標準化的模式,并通過在 prompt 部分限制 CoT 思維的方向來獲得正確的結果。本文方法的核心是模擬人類思維的過程,重塑思維鏈。表 6 中給出了五種通用的 prompt 策略。


  • 單詞思維:這種策略是要求模型解釋單詞并重建知識庫。通常情況下,一個單詞有多種不同的含義,這樣做的效果是讓模型跳出條條框框,根據(jù)生成的解釋重新解釋問題中的單詞。這一過程不會引入新的信息。在 prompt 中,研究者給出了模型正在思考的單詞的例子,模型會根據(jù)新問題自動挑選單詞進行這一過程。
  • 問題重載:反復閱讀問題,減少其他文本對思維鏈的干擾。簡而言之,讓模型記住問題。
  • 重復狀態(tài):與反復閱讀類似,在一長串推理之后加入一個當前狀態(tài)的小結,目的是幫助模型簡化記憶,減少其他文本對 CoT 的干擾。
  • 自我驗證:人類在回答問題時會檢查自己的答案是否正確。因此,在模型得到答案之前,研究者增加了一個自我驗證過程,根據(jù)一些基本信息來判斷答案是否合理。
  • 方程制備:對于數(shù)學問題,制作公式可以幫助人類總結和簡化記憶。對于一些需要假設未知數(shù) x 的問題,建立方程是一個必不可少的過程。研究者模擬了這個過程,并讓模型嘗試在數(shù)學問題中建立方程。

總體而言,本文的即時策略都在模型有所體現(xiàn)。表 1 展示的內(nèi)容是其中一個例子,其他四種策略的示例可以在原論文中查看。

圖片

實驗及結果

推理步驟與準確性的關系

表 2 比較了使用 GPT-3.5-turbo-1106 在三類推理任務的八個數(shù)據(jù)集上的準確性。

得益于研究者能夠?qū)⑺季S鏈過程標準化,接下來就可以量化在 CoT 的基本流程中增加步驟而對準確性的提高程度。本實驗的結果可以回答之前提出的問題:推理步驟與 CoT 性能之間的關系是什么?該實驗基于 GPT-3.5-turbo-1106 模型。研究者發(fā)現(xiàn),有效的 CoT 過程,例如在 CoT 過程中增加多達六個步驟的額外思維過程,會讓大型語言模型推理能力都會得到提高,并且是在所有的數(shù)據(jù)集上都有體現(xiàn)。換句話說,研究者發(fā)現(xiàn)準確性和 CoT 復雜性之間存在一定的線性關系。

圖片

錯誤答案的影響

推理步驟是影響 LLM 性能的唯一因素嗎?研究者做了以下嘗試。將 prompt 中的一個步驟更改為不正確的描述,看看它是否會影響思維鏈。對于這個實驗,本文研究者在所有 prompt 中添加一個錯誤。有關具體示例,請看表 3。

圖片

對于算術類型的問題,即使其中一個 prompt 結果出現(xiàn)偏差,對推理過程中思維鏈的影響也是微乎其微的,因此研究者認為在解決算術類型的問題時,大語言模型對提示中思維模式鏈的學習要多于單一計算。對于類似硬幣數(shù)據(jù)的邏輯問題,prompt 結果中的一個偏差往往會帶來整個思維鏈的支離破碎。研究者同樣使用 GPT-3.5-turbo-1106 完成這項實驗,并根據(jù)之前實驗得出的每個數(shù)據(jù)集的最佳步數(shù)保證了性能。結果如圖 4 所示。

圖片

壓縮推理步驟

先前的實驗已經(jīng)證明了增加推理步驟可以提高 LLM 推理的準確性。那么在小樣本問題中壓縮基礎推理步驟會損害 LLM 的性能嗎?為此,研究者進行了推理步驟壓縮實驗,并采用實驗設置中概述的技術,將推理過程濃縮成 Auto CoT 和 Few-Shot-CoT,減少推理步驟數(shù)。結果如圖 5 所示。

圖片

結果顯示,模型的性能顯著下降,回歸到與零樣本方法基本相當?shù)乃健_@個結果進一步表明,增加 CoT 推理步驟可以提高 CoT 性能,反之亦然。

不同規(guī)格模型的性能對比

研究者還提出疑問,我們能否觀察到縮放現(xiàn)象,即所需的推理步驟與 LLM 的大小有關?研究者研究了各種模型(包括 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4)中使用的平均推理步驟數(shù)。通過在 GSM8K 上的實驗計算出了每個模型達到峰值性能所需的平均推理步驟。在 8 個數(shù)據(jù)集中,該數(shù)據(jù)集與 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4 的性能差異最大。可以看出,在初始性能最差的 text-davinci-002 模型中,本文提出的策略具有最高的提升效果。結果如圖 6 所示。

圖片

協(xié)同工作實例中問題的影響

問題對 LLM 推理能力的影響是什么?研究者想探討改變 CoT 的推理是否會影響 CoT 的性能。由于本文主要研究推理步驟對性能的影響,所以研究者需要確認問題本身對性能沒有影響。因此,研究者選擇了數(shù)據(jù)集 MultiArith 和 GSM8K 和兩種 CoT 方法(auto-CoT 和 few-shot-CoT)在 GPT-3.5-turbo-1106 中進行實驗。本文的實驗方法包括對這些數(shù)學數(shù)據(jù)集中的樣本問題進行有意的修改,例如改變表 4 中問題的內(nèi)容。

圖片

值得注意的是,初步觀察表明,這些對于問題本身的修改對性能的影響是幾個要素里最小的,如表 5 所示。

圖片

這一初步發(fā)現(xiàn)表明,推理過程中步驟的長度是大模型的推理能力最主要的影響因素,問題本身的影響并不是最大的。 

更多詳細內(nèi)容,請閱讀原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-01-06 13:48:21

自然語言推理算法

2021-06-22 06:24:57

Linkerd Ingress 流量網(wǎng)絡技術

2011-04-19 14:02:09

SSAS

2010-09-08 09:41:03

私有云部署

2023-05-15 09:43:49

模型數(shù)據(jù)

2009-04-22 17:18:29

Vxworks驅(qū)動加載step by ste

2021-06-16 17:42:48

Linkerd 配置CPU

2011-12-10 19:17:12

webOS

2021-06-22 06:16:24

Linkerd books webapp

2021-06-22 06:41:38

Linkerd 安裝多集群組件網(wǎng)絡技術

2021-06-17 06:13:29

Linkerd Prometheus 網(wǎng)絡技術

2021-06-17 06:20:43

Linkerd Kustomize網(wǎng)絡技術

2021-06-17 14:29:39

Linkerd 分布式跟蹤Linkerd 2.1

2025-04-07 09:00:00

模型AI推理

2021-06-15 05:45:56

Linkerd annotations網(wǎng)絡技術

2021-06-15 05:52:33

Linkerd canary網(wǎng)絡技術

2021-06-24 07:20:21

Linked GitOps Argo CD

2018-04-10 18:01:32

直播

2012-02-22 10:14:44

Java

2012-06-07 09:57:28

聯(lián)想服務器ThinkServer
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久一区 | 蜜桃视频在线观看免费视频网站www | 日本免费网 | 亚洲成人精品免费 | www97影院| 男女羞羞网站 | 国产一区二区免费在线 | 天天操天天射综合 | 国产免费自拍 | 亚洲 中文 欧美 日韩 在线观看 | 老司机午夜性大片 | 91亚洲精品在线 | 一区二区三区国产好的精 | 欧美成人在线网站 | 在线欧美日韩 | 成人精品一区亚洲午夜久久久 | 国产精品成人一区二区三区夜夜夜 | 久久久国产精品一区 | 女人牲交视频一级毛片 | 可以看黄的视频 | 国产色网站 | 国产农村妇女毛片精品久久麻豆 | 欧美久久久久久久久中文字幕 | 国产高清精品一区二区三区 | 久综合 | 亚洲欧美日韩久久 | 懂色一区二区三区免费观看 | 久久精品国产久精国产 | 自拍偷拍小视频 | 一区二区三区在线观看视频 | 欧美精品综合 | 伊人久久综合 | 欧美日韩在线观看一区二区三区 | 男女污网站 | 亚洲欧美在线观看视频 | 欧美日韩一区二区三区在线观看 | 麻豆久久久9性大片 | 亚洲精品在线观看视频 | 天天看天天干 | 综合精品久久久 | 一区二区精品在线 |