成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型思維鏈推理的綜述:進展、前沿和未來 原創

發布于 2024-7-1 12:29
瀏覽
0收藏

?摘要:思維鏈推理,作為人類智能的基本認知過程,在人工智能和自然語言處理領域引起了極大的關注。然而,這一領域仍然缺乏全面的綜述。為此,我們邁出了第一步,全面而廣泛地呈現了這一研究領域的深入調查。我們使用X-of-Thought(思維X)來廣泛地指代思維鏈推理。具體來說,我們根據方法的分類系統地組織了當前的研究,包括XoT構建、XoT結構變體和增強的XoT。此外,我們描述了XoT在前沿應用中的使用,涵蓋了規劃、工具使用和蒸餾。此外,我們討論了挑戰并探討了一些未來的發展方向,包括忠實度、多模態和理論。我們希望這份綜述能夠成為尋求在思維鏈推理領域創新的研究者的寶貴資源。

1 引言

預訓練語言模型(PLMs)能夠自動從無標簽文本中學習通用表示,并通過在下游任務上的微調實現出色的性能(Devlin等人,2019年;Raffel等人,2020年;Radford和Narasimhan,2018年)。最近,擴大語言模型的規模顯著提高了性能,并帶來了許多驚喜,例如突現能力(Wei等人,2022a;Schaeffer等人,2023年)。因此,自然語言處理的范式正從預訓練加微調轉變為預訓練加上下文學習。然而,到目前為止,大規模語言模型(LLMs)在復雜推理任務上,如數學推理(Cobbe等人,2021年;Patel等人,2021年)、常識推理(Talmor等人,2021年;Mihaylov等人,2018年)等,仍有相當大的改進空間。

為了利用LLMs解決復雜推理任務,Wei等人(2022b)通過逐步推理過程擴展了上下文學習,首先引入了思維鏈(CoT)提示的概念。Kojima等人(2022年)發現,簡單地在提示中添加一個魔法短語“讓我們一步步來”就能使LLMs在沒有任何人類注釋的情況下執行零樣本思維鏈推理。這些研究突出了思維鏈在增強模型復雜推理能力以及提高其推理和規劃能力方面的重要性。

隨后,關于X-of-thought(XoT)的大量工作像雨后的蘑菇一樣在NLP社區迅速涌現,例如自動XoT構建(Kojima等人,2022年;Zhang等人,2023f;Xu等人,2023年),XoT結構變體(Chen等人,2022a;Ning等人,2023年;Lei等人,2023a;Yao等人,2023b)等。請注意,為了與原始的CoT區分開來,我們使用XoT來廣泛地指代CoT,這是一個集體術語,用于指代逐步推理方法的使用。

然而,這些方法和數據集尚未經過系統性的回顧和分析。為了填補這一空白,我們提出這項工作來進行對XoT家族的全面和詳細分析。盡管已經有一些綜述討論了思維鏈,但它們僅限于特定方面,例如使用提示的LLM推理(Qiao等人,2023年)和思維鏈提示策略(Yu等人,2023c)。相比之下,我們的綜述不僅提供了對他們已經涵蓋的主題的更全面和全面的討論,還包括了額外的主題和討論,如XoT構建、XoT結構變體和前沿應用等。具體來說,在本文中,我們首先介紹了相關背景和初步知識(第2節)。此外,我們從多個角度仔細分類了XoT系列工作,并完成了深入分析(第4節),包括XoT構建方法(4.1節)、XoT結構變體(4.2節)和XoT增強方法(4.3節)。然后,我們提供了XoT在前沿領域的實際應用(第5節)。為了激發XoT后續工作的靈感,我們提供了對這一領域未來研究潛在途徑的見解(第6節)。最后,我們比較并討論了現有的方法(第7節)。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

2 背景和初步

2.1 背景

近年來,隨著計算能力的不斷擴展,大規模語言模型如雨后春筍般涌現(Brown等人,2020年;OpenAI,2023年;Touvron等人,2023a;Scao等人,2022年;Touvron等人,2023b;Zhao等人,2023b),隨著模型規模的持續增長,許多新能力已經出現,例如上下文學習和思維鏈推理(Brown等人,2020年;Wei等人,2022b,a;Schaeffer等人,2023年)。

Brown等人(2020年)發現,大規模語言模型具有出色的上下文學習(ICL)能力。ICL將輸入-輸出演示融入到提示文本中。通過ICL,現成的LLMs可以在不進行額外微調的情況下使用,同時實現可比的性能。然而,這種端到端的方法在面對復雜推理任務時往往會表現不佳。

Wei等人(2022b)發現,通過在演示中添加逐步推理過程,可以提高LLMs的推理能力,這被稱為思維鏈提示。CoT提示使模型能夠更精確地理解問題的復雜性和推理過程。此外,模型生成了一系列推理步驟,這為我們提供了對模型認知過程的透明視圖,進一步提高了可解釋性。

2.2 基礎

在本節中,我們介紹了使用LLMs進行思維鏈推理的初步知識,并引用了(Qiao等人,2023年)中的公式定義。假設有一個問題Q,一個提示T和一個概率語言模型PLM。模型將問題和提示作為輸入,給出理由R和答案A。我們首先考慮上下文場景,其中演示不包含推理鏈。我們需要最大化答案A的可能性,如公式(1,2)所示。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

在思維鏈推理場景中,演示包含推理過程,我們需要最大化答案A和理由R的可能性,如公式(3,4,5,6)所示。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

3 基準測試

3.1 數學推理

數學推理通常用來衡量模型的推理能力。早期的基準測試包含簡單的算術運算(Hosseini等人,2014年;Koncel-Kedziorski等人,2015年;Roy和Roth,2015年;Koncel-Kedziorski等人,2016年)。Ling等人(2017年)以自然語言形式標記了推理過程,而Amini等人(2019年)在AQUA的基礎上,通過以程序形式標記推理過程進行了構建。后來的基準測試(Miao等人,2020年;Patel等人,2021年;Cobbe等人,2021年;Gao等人,2023年)包含了更復雜和多樣化的問題。(Zhu等人,2021年;Chen等人,2021年,2022b年)需要基于表格內容進行推理。還有一些通用基準測試(Hendrycks等人,2021年;Mishra等人,2022a,b年)和閱讀理解形式的基準測試(Dua等人,2019年;Chen等人,2023年)。最近,(Yu等人,2021a年)通過使用層次推理和知識,賦予了預訓練模型數學推理的能力。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

3.2 常識推理

常識推理是基于通常在日常生活世界中普遍知曉和普遍感知的知識進行推斷、判斷和理解的過程。如何獲取和理解常識知識是模型面對常識推理時面臨的主要障礙。許多基準測試和任務都集中在常識理解上(Talmor等人,2019年,2021年;Bhakthavatsalam等人,2021年;Mihaylov等人,2018年;Geva等人,2021年;Huang等人,2019年;Bisk等人,2020年),事件時間常識推理(Rashkin等人,2018年;Zhou等人,2019年)和常識驗證(Wang等人,2019年)。

3.3 符號推理

這里的符號推理特指模擬一些對人類來說簡單但對LLMs來說具有挑戰性的簡單操作。最后一個字母串聯、拋硬幣和反轉列表(Wei等人,2022b年)是最常用的符號推理任務。此外,協作基準測試BigBench(Srivastava等人,2022年)和BigBench-Hard(Suzgun等人,2023年)也包含了幾個符號推理數據集,如狀態跟蹤和對象計數。

3.4 邏輯推理

邏輯推理分為演繹推理、歸納推理和溯因推理(Yu等人,2023a年)。演繹推理從一般前提中推導出結論(Liu等人,2020年;Yu等人,2020年;Tafjord等人,2021年;Han等人,2022年)。歸納推理從特殊案例中推導出一般結論(Yang等人,2022年)。溯因推理為觀察到的現象提供合理的解釋(Saparov和He,2023年)。

3.5 多模態推理

在現實世界中,推理還涉及除文本之外的其他模態信息,其中視覺模態最為普遍。為此,提出了許多視覺多模態推理的基準測試(Zellers等人,2019年;Park等人,2020年;Dong等人,2022年;Lu等人,2022年),其中ScienceQA(Lu等人,2022年)注釋了推理過程,是使用最廣泛的視覺多模態推理基準測試。視頻多模態推理(Lei等人,2020年;Yi等人,2020年;Wu等人,2021年;Xiao等人,2021年;Li等人,2022a年;Gupta和Gupta,2022年)更具挑戰性,因為它與視覺多模態推理相比引入了額外的時間信息。

3.6 指標

準確率 準確率用于評估模型在分類任務上的能力,通常用于多項選擇(Ling等人,2017年;Mihaylov等人,2018年;Liu等人,2020年;Lu等人,2022年)和是非(Talmor等人,2021年;Geva等人,2021年;Han等人,2022年)任務。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

EM和F1 EM和F1是用于評估自由形式(Mishra等人,2022a年;Wang等人,2019年;Yi等人,2020年)和跨度提?。―ua等人,2019年;Zhu等人,2021年;Mishra等人,2022b年)任務的指標。兩者都在詞符級別上計算。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

其中P和R分別代表精確度和召回率,EM計算預測和答案完全相同的比例。

4 方法

在本節中,我們通過三種不同的分類探討X-of-thought(思維X)推理:X-of-thought的構建(4.1節)、X-of-thought的結構變體(4.2節)以及X-of-thought的增強方法(4.3節)。

4.1 構建方法

經過深入分析,我們將X-of-thought的構建分為三類:1)手動XoT,2)自動XoT,3)半自動XoT,具體描述如下。

4.1.1 手動XoT

盡管大型語言模型通過提示進行少量樣本的上下文學習,但在推理任務中仍有限制。為了探索大型語言模型的潛在推理能力,一種標準方法是在示例中提供不同形式的思考。

Wei等人(2022b)首次提出思維鏈提示(Few-shot CoT),通過手動提供自然語言形式的理由來演示。為了進一步確保推理過程中的確定性并減少推理路徑和答案之間的不一致性,PAL(Gao等人,2023)、PoT(Chen等人,2022a)和NLEP(Zhang等人,2023e)利用編程語言作為注釋理由,將問題解決轉化為可執行的Python程序。同時,為了同時利用自然語言和編程語言的優勢并提高推理輸出的置信度,MathPrompter(Imani等人,2023)使用零樣本思維鏈提示生成多個代數表達式或Python函數,這些可以相互驗證并提高結果的可靠性。此外,由于示例中的推理復雜性,如包含更多推理步驟的鏈,會導致性能提升,Fu等人(2023a)提出了基于復雜度的提示,其中在高復雜度理由之間進行投票以得出最終答案。

手動構建的X-of-thought方法通過向示例中添加不同類型的逐步中間推理過程來擴展上下文學習。它們允許LLMs模仿并生成推理路徑。盡管手動XoT方法為人類理解和復雜任務(如數學推理、常識推理、符號推理等)提供了更大的可解釋性和可靠性,但手動注釋理由需要顯著的成本,并存在諸如示范選擇困難和任務泛化等缺點。具體來說,不同的任務需要不同方式的示范。因此,其他工作嘗試自動構建推理路徑,如在§4.1.2中討論的。

4.1.2 自動XoT

思維鏈提示(Wei等人,2022b)通過在少量樣本設置中使用特定任務示例激發了LLMs的復雜推理能力,這限制了可擴展性和泛化能力。為了減少手工制作的少量樣本示例的成本,Kojima等人(2022)提出了零樣本CoT,通過在問題后引入一個魔法短語“讓我們一步步來”,使LLMs能夠以零樣本的方式生成推理鏈。然而,零樣本CoT存在推理路徑質量差、錯誤多的問題。由于示范的多樣性在推理鏈生成中起著至關重要的作用,Auto-CoT(Zhang等人,2023f)通過聚類和代表性示例選擇自動生成示范,提高了多樣性并一致性地匹配或超過了Few-shot CoT的性能。COSP(Wan等人,2023)引入了問題的輸出熵來輔助示范選擇。Xu等人(2023)提出了Reprompting,通過迭代使用Gibbs采樣來找到有效的CoT提示。同時,推理鏈中的一些錯誤來自遺漏步驟的錯誤,Wang等人(2023f)將零樣本CoT擴展到計劃和解決(PS)提示,通過設計一個計劃將整個任務劃分為更小的子任務,并根據計劃執行子任務,帶有更詳細的指令。LogiCoT(Zhao等人,2023c)使用符號邏輯來驗證零樣本推理過程,從而減少推理中的錯誤。此外,PoT(Chen等人,2022a)也探索了語言模型,如Codex,通過添加“讓我們一步步編寫Python程序...”,在零樣本設置中生成可執行的Python程序來解決數學問題,這減少了中間推理步驟中的錯誤。一些工作引入了代理來解決推理問題。例如,Agent Instruct(Crispino等人,2023a)利用代理生成與任務相關的、有信息量的指令,指導LLMs執行零樣本推理。

與手動XoT不同,自動XoT使用零樣本提示工程或采樣,是可擴展的,并且可以在沒有人類干預的情況下在領域之間泛化。然而,由于缺乏人類對齊,自動生成的思維鏈面臨質量差、幻覺和事實不一致等挑戰。因此,以半自動方式構建XoT是必要的,這在§4.1.3中介紹。

4.1.3 半自動XoT

半自動XoT方法結合了手動和自動構建方法的優點。Shao等人(2023)提出了合成提示,利用少數人工注釋的示例來提示模型通過交替的前向-后向過程生成更多示例,并選擇有效的示范以激發更好的推理,緩解了AutoCoT中缺乏人類對齊的問題。盡管之前的工作解決了手動注釋的問題,示范選擇也可以顯著影響性能。Automate-CoT(Shum等人,2023)采用強化學習與方差降低的策略梯度策略來估計黑盒語言模型中每個示例的重要性,激發更好的示范選擇。同樣,Lu等人(2023b)提出了PromptPG,它利用策略梯度來學習在表格推理中選擇示范。Ye和Durrett(2023)最初使用兩個代理指標來評估每個示例,然后在示例中搜索以找到在銀標開發集中產生最佳性能的示范。同時,Pitis等人(2023)提出了Boosted Prompting,這是一種提示集成方法來提高性能,它在遇到當前示范難以處理的問題時,通過迭代擴展示例。Zou等人(2023)引入了Meta-CoT,它根據問題類別自動選擇示范,消除了特定任務提示設計的需求。

半自動XoT方法減少了手動標記的工作量,同時引入了人類對齊信號和示范選擇策略,增強了推理的能力和穩定性。此外,它還實現了成本效益高的領域泛化。然而,示范選擇問題尚未完全解決,需要更多的努力和研究。

4.2 XoT結構變體

最原始的思維鏈是一個鏈式結構,用自然語言描述中間推理步驟。在本節中,我們介紹修改原始鏈式結構的結構變體,包括鏈式結構變體、樹狀結構變體和圖狀結構變體。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

圖2展示了推理的發展過程,從直接的輸入/輸出,到鏈式結構,再到樹和圖結構。

鏈式結構 PAL(Gao等人,2023年)和 PoT(Chen等人,2022a)引入編程語言來描述推理過程,從而將推理問題轉化為可執行程序的實現,以獲得最終答案。由于程序執行是確定性的并且能夠準確執行算術計算,這種方法在數學推理中表現出色。此外,符號序列是另一種思維表示類型。符號鏈(Chain-of-Symbol,Hu等人,2023a)在規劃期間用簡化的符號鏈表示表示復雜環境,這減少了模擬環境的復雜性。鏈式結構變體如圖2(c,d)所示。思維算法(Algorithm of Thought,Sel等人,2023)將算法能力注入模型,通過添加基于算法的示例使模型的推理更加邏輯化。它沒有樹搜索(Long,2023;Yao等人,2023b)的巨大搜索空間,節省了計算資源并取得了出色的性能。

樹狀結構 原始的鏈式結構本質上限制了探索范圍。通過結合樹狀結構和樹搜索算法,模型獲得了在推理過程中有效探索和回溯的能力(Long,2023;Yao等人,2023b),如圖2(e)所示。結合對中間思維的自我評估,模型可以實現全局最優解。ToT(思維鏈)的推理過程涉及不確定性,這可能導致級聯錯誤。TouT(Mo和Xin,2023)在推理中引入了蒙特卡洛dropout,考慮了不確定性。Yu等人(2023b)深入研究了類似的問題,利用它們的解決方案提升LLMs復雜的推理能力。這些類似的問題呈現出樹狀結構,最終匯聚解決主要問題。然而,當前的思維樹在選擇任務上有很大的局限性,需要為每個任務設計特定的提示,這阻礙了它的廣泛應用。SoT(Ning等人,2023)是樹狀結構的另一種變體,它將問題分解為可以并行處理并同時解決的子問題,以加快推理速度。然而,它的實用性僅限于可并行分解的問題,不適用于復雜推理任務。

圖狀結構 與樹相比,圖引入了循環和環,帶來了更復雜的拓撲關系,并允許建模更復雜的推理,如圖2(f)所示。GoT(Besta等人,2023;Lei等人,2023a)將中間思維視為圖中的節點,結合探索和回溯操作,并與思維樹相比額外引入了聚合和細化操作。額外的操作,聚合和細化,在復雜任務中激發了更好的推理。然而,它面臨著與思維樹相同的困境,即任務限制和較差的泛化能力。此外,它的推理成本增加了。與明確構建思維圖的GoT不同,ResPrompt(Jiang等人,2023a)在提示文本中引入了思維之間的殘差連接,允許不同步驟的推理相互交互。

隨著模型從線性鏈過渡到層次化的樹和復雜的圖,思維的相互作用逐漸變得更加復雜,從而逐步增強了解決復雜問題的能力。然而,隨著拓撲復雜性的增加,相關方法對任務選擇施加了更多限制,導致它們的泛化能力顯著降低,使其應用變得困難。將基于復雜拓撲結構的方法擴展到通用領域是未來研究面臨的一個主要挑戰。

4.3 XoT增強方法

在本節中,我們將介紹XoT增強方法。總共,我們將提供五個類別的概述,分別是添加驗證和細化(4.3.1節)、問題分解(4.3.2節)、利用外部知識(4.3.3節)、投票和排名(4.3.4節)以及提高效率(4.3.5節)。

4.3.1 驗證和改進

思維鏈推理往往傾向于產生幻覺,產生錯誤的推理步驟。中間推理步驟中的錯誤又可能觸發一系列錯誤。引入驗證以獲得反饋,隨后根據這些反饋細化推理過程,可以有效地減輕這種現象,類似于人類反思的過程。圖3描述了驗證和細化的概述。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

圖3:驗證和改進減少推理中的級聯錯誤。

VerifyCoT(Ling等人,2023年)設計了一種自然程序,這是一種演繹推理形式,允許模型產生準確的推理步驟,每個后續步驟嚴格基于前一步。DIVERSE(Li等人,2022c)使用投票機制來排除錯誤答案,然后對每個推理步驟進行細粒度的驗證。SCREWS(Shridhar等人,2023)認為后修改的結果并不一定優于原始結果,因此它引入了一個選擇模塊來在原始和修改之間選擇更好的結果。為了便于知識密集型任務,Verify-and-Edit(Zhao等人,2023a)引入外部知識來重新推理不確定的示例,減少推理中的事實錯誤。一些研究努力嘗試挖掘模型的內部知識。為了解決事實錯誤,一些研究嘗試挖掘LLMs的內在知識。他們在回答問題之前從模型中獲取知識(Dhuliawala等人,2023年;Zheng等人,2023年)。Ji等人(2023年)進一步驗證了內在知識的正確性,Liu等人(2023b)通過強化學習提高了內在知識獲取的準確性。

不一致性是推理中的另一個主要挑戰,Dua等人(2022年)迭代地使用先前的推理結果作為提示,直到模型給出一致的答案。Paul等人(2023年)訓練一個批評模型來提供關于推理過程的結構化反饋。Self-Refine(Madaan等人,2023)執行迭代自我反饋和細化以減輕推理中的錯誤。與Self-Refine相比,Reflexion(Shinn等人,2023)引入了強化學習進行反思,這也帶來了決策能力。同時,一些工作引入了反向推理(Yu等人,2023a)進行驗證。

RCoT(Xue等人,2023)根據推理鏈重構問題,其與原始問題的不一致性暴露了推理過程中的錯誤。FOBAR(Jiang等人,2023b)和Self Verification(Weng等人,2022)通過從答案中推斷問題中的條件進行驗證。FOBAR推斷問題中的變量,而Self Verification推斷問題中的條件。然而,Huang等人(2023a)發現LLMs在沒有外部反饋的情況下難以自我糾正,甚至可能導致性能下降。

LLM推理是一個無監督過程,在中間推理步驟中來自反饋信號的指導在提高推理中起著至關重要的作用。來自反饋信號的指導可以有效地減少推理中的幻覺現象。在獲取適當的反饋并根據該反饋進行準確糾正方面仍有很大的研究空間。

4.3.2 問題分解

X-of-thought推理的本質在于其逐步解決問題。然而,原始的思維鏈推理方法并沒有明確地剝離出逐步推理過程,仍然使用一次性生成。在本節中,我們將討論問題分解方法,該方法明確地逐步解決問題。概述如圖4所示。

大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區


圖 4:問題分解通過逐步解決簡單的子問題來解決復雜問題。

Wang等人(2022a)迭代地從模型中獲取知識,在多跳QA中取得進展。Zhou等人(2023b)提出了Least-to-Most提示,最初以自頂向下的方式將問題分解為子問題,隨后,它一次解決一個子問題,并利用它們的解決方案來促進后續子問題。Successive Prompting(Dua等人,2022)采取了與Least-to-Most提示類似的方法,不同之處在于它采用了交錯的子問題和答案的分解,而不是兩階段分解。上述方法沒有為各種子問題制定定制解決方案。Decomposed Prompting(Khot等人,2023)設計了一個模塊化共享庫,每個庫專門針對一類子問題,可以為不同類別的子問題定制更有效的解決方案。除了一般任務,一些工作專注于表格推理中的問題分解。BINDER(Cheng等人,2023)以神經符號方式將推理映射到程序,并通過程序執行器(如Python或SQL)獲得最終答案。Ye等人(2023)引入了DATER,它將大型表格分解為較小的表格,將復雜問題分解為簡單問題。前者減少了不相關信息,后者減少了推理的復雜性。

直接回答復雜問題可能是具有挑戰性的。通過將問題分解為簡單的子問題并逐步解決它們,難度降低了。此外,每個子問題都可以追溯到特定的推理步驟,使推理過程更加透明和可解釋。當前的工作大多使用自頂向下的分解策略,而基于反向推理的自底向上分解策略仍有待在未來的工作中探索。

4.3.3 利用外部知識

模型內參數化的知識是有限的且過時的。因此,在面對知識密集型任務時,經常發生事實錯誤。引入外部知識可以減輕這種現象,如圖5所示。

大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

 圖5:引入外部知識可以減少推理中的事實錯誤。

Lu等人(2023a)在提示中引入多語言詞典以增強機器翻譯。Li等人(2023d)提出了知識鏈(CoK-Li),通過查詢生成器從知識庫中獲取結構化知識以執行知識引導推理。Wang等人(2023b)(CoK-Wang)也從知識庫中檢索結構化知識。此外,它估計了推理鏈的事實性和忠實度,并提示模型重新思考不可靠的推理,這減輕了CoK-Li中的知識檢索錯誤。KD-CoT(Wang等人,2023c)通過多輪QA方法解決事實推理問題。他們設計了一個反饋增強的檢索器,在每輪QA中檢索相關外部知識以校準推理過程。其他研究使用模型自己的記憶作為外部知識。例如,Memory-of-Thought(Li和Qiu,2023)首先進行預思考,將高置信度的思維保存到外部記憶,在推理期間,它讓LLM回憶相關記憶以輔助推理。

模型中的參數化知識在預訓練結束時固定,這導致其在知識容量和知識更新方面的不足。雖然引入外部知識可以在一定程度上緩解這一點,但它仍然是一個不完美的解決方案。要從根本上解決這個問題,持續學習(Lange等人,2022年;Wang等人,2023g)是未來研究工作的一個有希望的途徑。

4.3.4 投票和排名

由于生成過程中固有的隨機性,LLM推理表現出隨機性和不確定性。通過多種抽樣策略,可以有效減輕這個問題,如圖6所示。


大模型思維鏈推理的綜述:進展、前沿和未來 -AI.x社區

圖 6:投票和排序通過從多個采樣中選擇最終答案來減少不一致性。

一些方法采用排名,如(Cobbe等人,2021年),它訓練一個驗證器通過排名選擇高置信度的推理鏈。同時,其他方法通過投票機制選擇推理鏈。Self-consistency(Wang等人,2023j)通過基于最終答案的采樣推理鏈的多數投票選擇最一致的答案。此外,(Fu等人,2023a)提出了Complex CoT,它利用基于復雜度的投票策略,傾向于選擇由更復雜的推理鏈生成的答案。然而,基于答案的投票機制沒有考慮推理鏈的正確性。

Miao等人(2023年)在投票時考慮了推理步驟,這可以同時獲得一致的答案和可信賴的推理過程。此外,為了考慮跨鏈中間步驟之間的關系,Yoran等人(2023年)在推理鏈之間混合信息,并選擇最相關的事實對多個推理鏈進行元推理。GRACE(Khalifa等人,2023年)通過對比學習訓練一個鑒別器,并使用這個鑒別器對每個中間推理步驟進行排名。以前的方法基于概率分布進行抽樣,而Diversity-of-Thought(Naik等人,2023年)通過使用不同的指令提示獲得多個推理路徑。

從集成學習中汲取靈感,隨后進行投票和排名的多重抽樣做法有助于減少不確定性。此外,與單樣本方法相比,它展示了顯著的性能提升。多重抽樣與投票已成為當前X-of-thought研究中的常用技術。將推理鏈整合到投票中仍然是未來研究的一個重要領域。

4.3.5 效率

LLM推理和手動注釋的推理鏈帶來了昂貴的開銷。Aggarwal等人(2023年)通過動態調整樣本數量提高自一致性,這可以在邊際性能下降的情況下顯著降低推理成本。Ning等人(2023年)并行地分解問題并同時處理它們,減少了推理時間開銷。但它無法處理復雜問題。Zhang等人(2023b)通過選擇性跳過一些中間層并隨后在另一個前向傳遞中驗證草稿來加速推理。Diao等人(2023年)借鑒了主動學習的思想,對具有高不確定性的示例進行注釋,減少了人工注釋成本。大規模語言模型展示了巨大的能力,但它們也帶來了巨大的開銷。在未來的研究工作中,平衡性能和開銷之間的權衡可能需要大量的關注。

5 前沿應用

5.1 工具使用

盡管大型語言模型(LLMs)展示了廣泛的知識,但也伴隨著一些挑戰。這些挑戰包括無法訪問最新新聞、在回答涉及領域外知識的查詢時傾向于產生幻覺,以及缺乏復雜的推理能力,如數學計算或符號推理。通過賦予LLMs使用外部工具的能力,可以增強模型的推理能力并整合外部知識,使其能夠進行信息檢索和環境交互。

MRKL(Karpas等,2022年)引入了一種包含可擴展模塊(稱為專家)和路由器的新框架。這些專家可以是神經網絡或符號形式。然而,這項研究主要集中在概念化和專門針對數學計算訓練LLM,而沒有深入實現其他模塊內容。TALM(Parisi等,2022年a)和Toolformer(Schick等,2023年)將文本為中心的方法與輔助工具結合,以增強語言模型的能力。他們采用自監督機制啟動性能增強,從一組有限的工具提示開始。類似地,HuggingGPT(Shen等,2023年)利用視覺和語音模型處理來自不同模態的信息,從而賦予LLMs多模態理解和生成的能力。另一個問題是如何選擇適當的工具。LATM(Cai等,2023年)使LLMs能夠在不同任務中生成通用的API,而GEAR(Lu等,2023年c)則通過使用較小的模型來委派工具的基礎和執行,從而考慮工具使用的效率。

然而,將用戶請求轉換為API格式通常并不容易。上述現有方法在促進多次工具調用和糾正查詢錯誤方面存在局限性。為了解決這個問題,ReAct(Yao等,2023年c)整合了推理和行動的優勢,相互增強和補充,提高了問題解決能力。ART(Paranjape等,2023年)使用任務庫選擇相關的工具使用和推理鏈。MM-REACT(Yang等,2023年)進一步利用視覺專家實現多模態推理和行動。

上述研究工作集中在設計工具(或API)以增強LLMs在各個領域的能力。將XoT與工具結合有效應對了LLMs面臨的挑戰。X-of-thought推理使模型能夠有效地引出、跟蹤和更新行動計劃,同時管理異常情況。同時,行動操作促進模型與外部資源(如知識庫和環境)的交互,使其能夠收集額外信息。為了評估工具的能力,API-Bank(Li等,2023年c)和MetaTool(Huang等,2023年c)引入了綜合基準,提供了評估工具增強型LLMs性能和有效性的堅實基礎。

5.2 規劃

LLMs在直接提供復雜問題的準確答案方面面臨挑戰,需要將其分解為連續的步驟和子任務。雖然思維鏈(CoT)提供了一種簡單的規劃方法,但在解決高度復雜的問題時卻顯得不足,且缺乏通過回溯評估和糾正錯誤的能力。

許多研究將思維鏈的框架擴展到各種形式,以進一步增強規劃能力。樹形思維(Tree-of-Thought,Yao等,2023b)使LLMs能夠在樹中考慮多種推理路徑并自我評估以確定下一步行動。在需要全局決策的情況下,ToT允許通過深度優先搜索或廣度優先搜索等技術進行前向或后向探索。通過規劃進行推理(Reasoning via Planning,RAP,Hao等,2023年)也將問題劃分為樹,并通過蒙特卡洛樹搜索算法進行探索,使用LLMs作為世界模型和推理代理。另一種方法,圖形思維(Graph of Thought,GoT,Yao等,2023d),使用圖節點表示各個思維并利用外部圖神經網絡進行組織。LLM+P(Liu等,2023年a)和LLM+DP(Dagan等,2023年)促進LLMs生成規劃域定義語言(PDDL)(Gerevini,2020)。PDDL有助于分解復雜問題并利用專業模型進行規劃,然后將結果轉換為自然語言供LLM處理。然而,需要注意的是,這些方法使用樹/圖/PDDL節點來表示思維,這在表示形式上有局限性,只能處理特定的規劃問題。

另一種技術是提高模型糾正錯誤和總結歷史經驗的能力。自我改進(Self-Refine,Madaan等,2023年)采用了一種獨特的方法,即使用同一模型評估并反饋模型生成的輸出。反思(Reflexion,Shinn等,2023年)使模型能夠反思并糾正之前行動中的錯誤,類似于文本格式的強化學習,并將記憶劃分為長期和短期成分。然而,當出現計劃外錯誤時,Reflexion無法更新計劃。AdaPlanner(Sun等,2023年)引入了自適應閉環計劃改進,根據環境反饋迭代細化任務計劃。ISR-LLM(Zhou等,2023年c)將自我改進與PDDL結合,在長時間順序任務中取得了更高的成功率。同時,LATS(Zhou等,2023年a)利用基于語言模型的蒙特卡洛樹搜索進行更靈活的規劃過程。

規劃可以靈活地與工具(Ruan等,2023年)或代理(Crispino等,2023年b)結合,以豐富推理能力。ToRA(Gou等,2023年)設計了帶有外部工具的數學專業代理,AutoUI(Zhang和Zhang,2023年)直接與多模態環境交互,而不是將視覺輸入轉換為文本,從而提高推理效率并減少錯誤傳播。

規劃增強方法通過引入基于搜索、基于圖形和基于定義語言的方法,推動了傳統順序規劃的發展。另一方面,一些方法結合了行動、規劃、反思或工具,旨在增強LLMs的長期規劃和抗錯誤能力。

5.3 思維鏈蒸餾

通過蒸餾推理步驟,大型語言模型(LLM)可以自我改進以解決復雜問題。Huang等(2022年)采用了一種自一致性LLM,從未標記數據生成思維鏈。隨后利用這些鏈條微調模型,增強其廣泛的推理能力。Zelikman等(2022年)提出了STaR,一種使用自循環引導策略改進語言模型推理能力的小樣本學習方法。SECToR(Zhang和Parkes,2023年)使用思維鏈獲取算術答案,然后微調模型以直接生成答案而無需思維鏈。

思維鏈是一種主要在大型語言模型中觀察到的新興能力,在小型模型中進展有限。然而,通過蒸餾等技術提升小型模型的思維鏈能力是可行的。Magister等(2023年)展示了通過使用較大教師模型生成的推理鏈微調T5,并使用外部計算器解決答案,可以顯著提高各種數據集上的任務性能。Ho等(2023年)生成和篩選多條推理路徑以豐富多樣性。

許多努力旨在通過使用未標注(或很少標注)數據和自一致性(Wang等,2023j)來減少人工成本。Hsieh等(2023年)使用提示從少量標注/未標注數據生成答案,然后生成理由,提示語言模型為給定答案提供推理。SCoTD(Li等,2023年)發現,從教師模型中為每個實例采樣多條推理鏈對于提高學生模型的能力至關重要。SCOTT(Wang等,2023h)在生成教師模型的理由時使用對比解碼(Li等,2022b;O'Brien和Lewis,2023年)。此外,為了解決快捷方式問題,它在訓練學生模型時采用反事實推理目標。DialCoT(Han等,2023年)將推理步驟分解為多輪對話,并使用PPO算法選擇正確路徑。Jie等(2023年);Wang等(2023i)為數學問題添加了特殊標記。這種高層次信息提高了推理步驟的一致性。

上述研究采用了共享范式,通過具有更高推理能力的LLMs生成思維鏈,然后將這些思維鏈蒸餾到較小的模型中。通過增強較大模型的采樣策略,例如利用多條采樣路徑、一致性或對比解碼,蒸餾過程的有效性得以提高,這帶來了生成推理鏈的多樣性和準確性,最終有利于向較小模型的蒸餾過程。值得注意的是,語言模型在多維能力上存在復雜的權衡和平衡。Fu等(2023年b)強調,通過蒸餾增加任務特定的思維鏈能力可能會對模型解決廣泛問題的性能產生不利影響。

6 未來方向

雖然思維鏈推理在許多任務中表現出了顯著的性能,但仍有一些挑戰需要進一步探索。在本節中,我們簡要概述了未來研究的三個有前途的方向:多模態思維鏈推理(§6.1)、真實的思維鏈推理(§6.2)和思維鏈推理理論(§6.3)。

6.1 多模態思維鏈

從單一模態的文本到視覺-文本的多模態轉換引入了更豐富的信息,同時也帶來了更多的挑戰。一些研究嘗試通過微調多模態模型在多模態場景中生成高質量的思維鏈來探索思維鏈推理。Multimodal-CoT(Zhang等,2023年g)首先微調多模態模型生成思維鏈,然后在這些理由上進行推理以獲得最終答案。然而,它受到推理過程線性限制的影響,并且在不同模態之間的交互方面存在困難。為了解決Multimodal-CoT遇到的挑戰,Yao等(2023年d)提出了思維圖(Graph-of-Thought,GoT),將思維過程建模為圖。它將推理鏈解析為思維圖,通過捕捉非順序的信息交互,使思維過程的表示更加真實。這一措施通過圖形結構打破了線性結構的限制,并進一步提高了性能。此外,Yao等(2023年a)提出了超圖思維(Hypergraph-of-Thought,HoT),用超圖取代思維圖,使模型具有更好的高階多跳推理和多模態比較判斷能力。同時,一些工作采用了基于知識蒸餾的方法。T-SciQ(Wang等,2023年d)從LLM生成高質量的思維鏈理由作為微調信號,并引入了一種新穎的數據混合策略,以生成適用于不同問題的有效樣本。

上述研究在小模型和微調場景中探索了多模態推理,這被視為多模態思維鏈推理領域的初步嘗試。我們認為,結合上下文學習的視頻多模態推理應該成為未來研究的重點。一方面,與圖像相比,視頻引入了額外的時間信息,具有內在的鏈條關系。通過思維鏈推理,可以自然地連接不同幀中的信息,顯式建模時間關系,這非常適合視頻多模態推理。另一方面,小模型在能力上有限,需要微調才能獲得思維鏈能力。更糟糕的是,多模態推理鏈難以獲取,這進一步加劇了挑戰。相比之下,當前的視覺-語言基礎模型(VLMs)(Alayrac等,2022年;Li等,2023年a;Wang等,2022年b;Huang等,2023年b;Peng等,2023年;Yu等,2021年b)具有強大的視覺-語言理解能力,已經能夠在文本和圖像交錯的上下文中進行學習。它們為結合上下文學習的思維鏈推理提供了堅實基礎。利用思維鏈進行視頻推理仍然是一個未被充分探索的領域,只有少數研究涉及。CoMT(Hu等,2023年b)在視頻推理中結合了快思維和慢思維,并引入了規劃的樹搜索策略,首次在視頻多模態推理中應用了思維鏈。

盡管一些研究已經開始利用思維鏈推理解決多模態推理任務,但之前的工作僅關注于如何構建高質量的微調數據,仍有若干挑戰需要解決:

- 如何統一視覺和語言特征以引出更好的多模態理解。

- 如何在不進行微調的情況下使用VLMs進行思維鏈推理。

- 如何將圖像多模態推理適應到視頻多模態推理。

6.2 真實度

大量研究表明,思維鏈推理可能導致幻覺現象,如事實錯誤和上下文不一致??紤]到語言模型本質上屬于統計模型,并且由于數據噪聲和知識遺忘等因素,幻覺現象是不可避免的。

一些工作專注于減輕事實錯誤。He等(2023年a)引入外部知識來評估推理鏈,并通過投票過濾掉包含事實錯誤的鏈條,但不進行糾正。Wang等(2023年b)采用了類似的方法,不同之處在于額外引入了反思機制以糾正低評分的推理。Zhao等(2023年a)通過一致性過濾掉低置信度的推理,并指導模型基于相關外部知識重新推理。雖然上述方法在知識密集型任務中表現良好,但在解決上下文不一致性挑戰方面卻有所不足。Zhang等(2023年d)探索了推理過程中幻覺滾雪球現象。其他一些研究旨在解決不一致性問題。Radhakrishnan等(2023年)觀察到,模型在處理簡單問題時更為真實。因此,通過問題分解來提高真實度。Faithful CoT(Lyu等,2023年)最初生成符號推理鏈,然后確定性地執行符號函數,以減輕推理不一致性。Lanham等(2023年)探討了影響真實度的因素,提供了經驗性視角。研究發現,不同任務的真實度不同,隨著模型規模的增加,真實度下降。CoNLI(Lei等,2023年b)提出了一種后編輯策略以減少幻覺。SynTra(Jones等,2023年)在易引發幻覺的合成數據集上進行前綴調優,然后將此能力轉移到實際任務中。

盡管在解決大型語言模型幻覺問題上做出了許多努力,這些工作僅在某種程度上緩解了問題。要完全提高大型語言模型的真實度還有很長的路要走。我們總結了未來的研究方向如下:

- 提高識別推理過程中的幻覺現象的能力。

- 提高外部知識檢索和利用的準確性,以減少事實錯誤。

- 提高識別和糾正上下文不一致和邏輯錯誤的能力,這更具挑戰性。

- 如何從根本上消除幻覺現象,例如通過特定的預訓練方法。

6.3 思維鏈理論

盡管思維鏈推理表現出了令人印象深刻的能力,但仍然缺乏關于按照指令生成思維鏈的全面解釋。

一些研究從經驗角度入手,可作為實際指導。Madaan和Yazdanbakhsh(2022年)將提示分解為三個部分:符號、模式和文本,通過反事實提示探索思維鏈的影響。Wang等(2023年a)分析了示范選擇的影響。他們發現,推理鏈的正確性影響很小,而與問題的相關性和正確的推理順序很重要。Tang等(2023年)探索了語義的作用。研究發現,思維鏈推理在很大程度上依賴于預訓練期間引入的語義知識,在符號推理方面表現不佳。

其他一些研究從理論上分析,探索潛在的原理和內部機制。Li等(2023年e)將思維鏈推理解構為一個多步驟組合函數。他們表明,思維鏈減少了上下文學習處理復雜問題的復雜性。Feng等(2023年)理論證明了一個固定大小的Transformer足以完成計算任務和動態規劃任務,并支持思維鏈。Merrill和Sabharwal(2023年)觀察到,思維鏈可以增強推理能力,隨著中間推理步驟數量的增加,改進幅度也增加。Wu等(2023年)利用基于梯度的特征歸因方法探索思維鏈對輸出的影響。結果表明,思維鏈對問題中的擾動和變化表現出魯棒性。此外,有一些觀點認為,思維鏈能力源自預訓練階段的代碼數據(Madaan等,2022年;Zhang等,2023年c),但目前沒有系統的工作來證實這一觀點。

當前對思維鏈理論的研究仍處于初步探索階段。我們總結了未來的研究方向如下:

- 探索思維鏈能力的來源,以實現思維鏈推理的有針對性改進。

- 從理論上分析思維鏈相對于上下文學習的優勢,并探索其能力邊界。

7 討論

7.1 思維鏈構建比較

現有方法構建思維鏈主要有三種方式:(1) 手動標注推理鏈。 (2) 模型自動生成推理鏈。 (3) 半自動生成,利用少量手動標注的推理鏈進行自動擴展。

我們觀察到,手動構建方法(Wei等,2022b;Gao等,2023年)面臨與上下文學習類似的挑戰,即示范選擇、指令格式化等(Dong等,2023年)。這導致其應用困難重重,并且阻礙了跨不同任務的轉移能力。自動構建方法(Zhang等,2023年f;Chen等,2022年a;Xu等,2023年)缺乏高質量標注的指導,導致性能不足。得益于手動標注帶來的信號,半自動方法(Shum等,2023年;Shao等,2023年)可以通過自引導和類似技術生成高質量的推理鏈,有效解決了以往方法面臨的挑戰。在取得優異性能的同時,還能輕松實現跨不同任務的轉移。

7.2 驗證/改進與規劃的比較

規劃方法與基于驗證/改進的方法之間存在許多相似之處,因為兩者都依賴于中間過程的反饋來調整和改進行為。區別在于規劃方法包括決策過程,而基于驗證/改進的方法僅解決中間錯誤,而不涉及更高層次的認知過程。

LLM的推理過程通常存在幻覺,導致事實和邏輯錯誤?;隍炞C和編輯的方法(Ling等,2023年;Zhao等,2023年a;Madaan等,2023年;Shinn等,2023年)驗證推理過程的正確性并改進可能導致幻覺的推理步驟。通過驗證和改進,大大減少了推理過程中的連鎖錯誤和幻覺現象。

規劃方法(Long,2023年;Yao等,2023年b,c;Liu等,2023年a;Shinn等,2023年)在推理中引入了決策過程。他們評估中間推理步驟以獲取反饋,并基于反饋進行探索和回溯,以在全局層面上獲得更優的解決方案。其專業化在于處理復雜問題,特別是在面對復雜的多跳推理和規劃任務時,能夠取得顯著的性能。

7.3 彌補固有缺陷

LLM在推理方面存在許多固有的局限性,例如無法訪問外部信息、算術錯誤和不一致的推理。這些問題可以通過將特定職責委托給專用模塊或模型來巧妙地規避。

針對模型在訪問外部信息方面的局限性,(Li等,2023年d;Wang等,2023年b;Lu等,2023年a;Schick等,2023年;Karpas等,2022年;Yoran等,2023年)利用知識庫、搜索引擎和開放域問答系統等外部知識資源。一些工作引入了計算器來解決算術錯誤(Schick等,2023年;Karpas等,2022年;Parisi等,2022年b)。代碼執行是確定性的,一些工作通過引入代碼執行器提高推理過程的一致性(Gao等,2023年;Chen等,2022年a;Bi等,2023年;Imani等,2023年)。我們認為,將LLM用作中央規劃和推理的代理,將特定子任務委托給專用子模型,是未來在復雜場景中應用大模型的潛在途徑(Wang等,2023年e;Xi等,2023年)。

7.4 其他工作

在本章中,我們將列出其他代表早期嘗試思維鏈推理或專為特定領域設計的工作。Katz等(2022年);Zhang等(2022年)提供了基準和資源。一些工作經驗性地證明了思維鏈提示的有效性(Lampinen等,2022年;Ye和Durrett,2022年;Arora等,2023年),Shi等(2023年)探索了多語言思維鏈推理。其他工作專注于特定領域,如機器翻譯(He等,2023年b)、情感分析(Fei等,2023年)、句子嵌入(Zhang等,2023年a)、摘要(Wang等,2023年k)、算術(Lee和Kim,2023年)和表格推理(Chen,2023年;Jin和Lu,2023年)等。此外,一些研究利用特定的預訓練來增強某些能力,如數學推理(Lewkowycz等,2022年;Zhao等,2022年)。

8 結論

本文對現有的思維鏈推理研究進行了廣泛的調查,提供了對該領域的全面回顧。我們介紹了廣義思維鏈(X-of-Thought)的概念,并從多個角度審視了X-of-Thought推理的進展。此外,我們還探討了X-of-Thought在前沿領域的應用。我們還強調了目前這一研究面臨的挑戰,并展望了未來的前景。據我們所知,這項調查是對思維鏈推理的首次系統性探索。我們的目標是為對思維鏈推理感興趣的研究人員提供全面的概述,希望這項調查能促進該領域的進一步研究。

Chu Z, Chen J, Chen Q, et al. A survey of chain of thought reasoning: Advances, frontiers and future[J]. arXiv preprint arXiv:2309.15402, 2023.

?

本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:????https://mp.weixin.qq.com/s/X2lcVLFFlFgQCzacret4Vg??



?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 九九久久国产精品 | 天堂中文在线观看 | 久久成人精品 | 日韩色在线 | 国产成人综合一区二区三区 | 欧美日韩高清一区二区三区 | 亚洲国产一区二区三区 | 日韩精品成人一区二区三区视频 | 日韩精品a在线观看图片 | 91麻豆精品国产91久久久更新资源速度超快 | 99久久久久国产精品免费 | 欧美日韩三级 | 亚洲一区二区精品 | 97人澡人人添人人爽欧美 | 色综合色综合色综合 | 最新国产视频 | 精品九九 | 亚洲区一区二 | 伊人最新网址 | 成人a视频片观看免费 | 国产一区二区在线视频 | 久久国产精品99久久久大便 | 亚洲精品一区中文字幕 | 欧美中文字幕一区二区三区亚洲 | 国产精品国产精品 | av一区二区三区在线观看 | 91视频播放 | 久久国产精品99久久久久 | 久久免费看 | 福利视频二区 | 精品视频 免费 | 二区中文 | 成人国产精品色哟哟 | 成人在线视频免费看 | 欧美精品久久久久久久久久 | 国产精品免费一区二区三区 | 精品乱码一区二区三四区 | 草草视频在线观看 | 精品无码久久久久久久动漫 | 精品99爱视频在线观看 | 国产精品成人一区二区 |