大語言模型在知識增強復雜問題求解中的綜述原創精華

發布于 2025-5-14 10:05

瀏覽

0收藏

?摘要：問題求解一直是人類在眾多領域取得進步的根本驅動力。隨著人工智能的發展，大語言模型（LLMs）已成為能夠解決跨多個領域復雜問題的強大工具。與傳統計算系統不同，大語言模型將原始計算能力與近似人類推理能力相結合，使其能夠生成解決方案、進行推理，甚至利用外部計算工具。然而，將大語言模型應用于實際問題求解面臨重大挑戰，包括多步推理、領域知識整合和結果驗證。本綜述探討了大語言模型在復雜問題求解中的能力和局限性，研究了思維鏈（CoT）推理、知識增強，以及各種基于大語言模型和工具的驗證技術。此外，我們還強調了在軟件工程、數學推理與證明、數據分析與建模和科學研究等不同領域中特定領域的挑戰。本文進一步從多步推理、領域知識整合和結果驗證的角度，討論了當前大語言模型解決方案的基本局限性，以及基于大語言模型的復雜問題求解的未來發展方向。

1 引言

人類文明的歷史是由解決問題的能力塑造的，從古代建造住所到解開宇宙的奧秘。例如，古代天文學家計算地球的大小，而現代科學家使用計算模型預測天氣。隨著技術的進步，人類逐漸從單純依靠個人或集體智慧，轉向利用計算機等強大工具來應對日益復雜的挑戰。這種轉變標志著問題求解的范式轉變，從純粹以人類為中心的方法，演變為人類創造力與計算能力的協同作用。

如今，基于大語言模型的人工智能系統代表了一項突破性進展。與擅長精確計算的傳統計算機不同，大語言模型模擬人類推理的各個方面，如生成創造性解決方案和進行上下文推理。這使得大語言模型成為將計算能力與近似人類思維相結合的工具，能夠解決那些對人類來說具有挑戰性的復雜問題。與人類解決問題類似，大語言模型可以直接解決問題并生成最終結果；大語言模型還可以通過編寫和執行代碼來利用計算機解決問題并獲得結果。

復雜問題求解的范圍涵蓋廣泛的領域，幾乎涉及人類社會的各個方面（圖 1）。例如，設計強大的軟件系統架構需要平衡可擴展性、可靠性和用戶需求，而證明數學定理則需要嚴謹的邏輯推理和抽象能力。在數據科學領域，構建準確的模型來解釋大量數據集對于明智的決策至關重要。同樣，藥物發現需要探索復雜的分子相互作用以確定有效的治療方法，而構建物理模型則使我們能夠模擬和理解自然現象。這些例子凸顯了人類努力解決的復雜問題的多樣性，每個問題都需要領域專業知識、推理和創造力的結合。

大語言模型在知識增強復雜問題求解中的綜述-AI.x社區

圖 1. 一些復雜問題求解的場景

解決這些現實世界中的復雜問題需要利用領域知識或經驗，并經過多個推理步驟才能得出最終解決方案。在研究領域，數學推理通常被視為復雜問題求解的一種代表性形式，目前的研究主要集中在具有明確最終答案的數學推理問題上。相比之下，數學定理證明任務 —— 在高等教育和研究中更具代表性 —— 卻常常被忽視，因為它們通常沒有單一的最終答案可供驗證。在實踐中，許多現實世界的復雜問題比數學推理任務更具挑戰性。首先，這些問題本質上難以驗證。例如，在數據科學中，許多建模技術可以應用于同一數據集，但它們的性能可能差異很大。此外，模型的有效性高度依賴于上下文，因問題和數據集而異。這種可變性使得為任何給定的建模任務確定最佳解決方案變得困難。其次，解決這類現實世界問題需要大量的領域專業知識。再以數據建模為例，人們不僅必須了解數據的細微差別，還必須精通各種建模技術才能獲得良好的性能。

解決現實世界的復雜問題需要三個關鍵要素：多步推理、領域知識和結果驗證。當大語言模型應用于現實世界問題時，這個問題求解過程會面臨多重挑戰。

?多步推理：解決一個復雜問題需要采取多個步驟才能達到最終結果。搜索空間的大小在很大程度上取決于解決復雜問題所需的步驟數，并且隨著推理步驟數的增加，搜索空間可能呈指數增長。這使得確定通向最終結果的正確路徑變得具有挑戰性。此外，搜索過程中出現的任何錯誤都可能傳播并導致錯誤的結果。

?領域知識：知識在引導問題解決者在搜索空間中前進方面起著至關重要的作用，幫助確定下一步或識別何時找到了解決方案。特定領域的應用，如機器學習任務和數學定理證明任務，通常需要利用長尾領域知識，而眾所周知，大語言模型無法很好地掌握長尾知識。這就要求基于大語言模型的系統格外注意掌握領域知識，并可靠地檢索和應用所需知識來解決問題。

?結果驗證：必須仔細評估每一步，以判斷它是否有助于得出正確的解決方案，或者整個解決方案是否能夠解決給定的問題。在許多缺乏標準結果或預定義解決程序的應用中，這種評估可能特別具有挑戰性。對于目標不明確的開放式問題，例如在科學研究和數據挖掘中發現的問題，難度甚至更大。

大語言模型的最新發展展示了它們在一些目標明確且結果易于驗證的復雜問題上的強大推理能力，這使得它們非常適合數學推理和競技編程挑戰等任務。思維鏈推理是解決多步推理的主要技術。思維鏈推理中存在一種推理縮放定律，即隨著思維鏈路徑數量的增加，找到正確解決方案的可能性會顯著提高，并且對于許多具有挑戰性的問題，通常只要有足夠數量的思維鏈路徑，就有可能生成正確的解決方案。由于目標應用，如數學推理和競技編程，很容易驗證，許多研究工作正在使用強化學習來訓練大語言模型，以提高它們在這些應用中的推理能力。OpenAI 發布的 GPT-o1 和 DeepSeek-R1 展示了這種思維鏈推理方法的潛力。

雖然思維鏈推理是解決復雜問題的重要技術，但有必要采用一種智能體方法，使大語言模型能夠訪問外部知識庫并使用驗證工具，以進一步提高大語言模型解決現實世界復雜問題的能力。先前的研究表明，大語言模型在保留長尾知識方面存在困難，而特定領域的知識通常屬于這一類別。對于科學發現、數學定理證明和數據科學等知識密集型任務，外部知識整合至關重要，在這些任務中，領域專業知識對于準確和明智的決策至關重要。知識可以通過 RAG 和 GraphRAG 等技術從文檔中檢索，或者通過利用從文檔集合構建的知識圖譜來獲取。此外，智能體可以與人類互動，直接獲取領域知識。在訓練和推理過程中，結果驗證對于確保大語言模型的有效解決方案也至關重要。專注于推理的大語言模型通常使用合成數據進行訓練，這就需要一個驗證器來選擇高質量的數據用于模型訓練。在推理過程中，推理縮放定律強調了驗證器在多個候選解決方案中識別正確解決方案的必要性。為此，可以采用各種類型的驗證器，包括基于大語言模型評判的方法、符號推理工具，甚至實驗驗證系統。

盡管大語言模型在復雜問題求解方面取得了顯著進展，但在將大語言模型應用于實際應用時，每個領域都有其獨特的挑戰。以圖 1 中的一些領域為例。在軟件工程中，大語言模型的任務是在大型代碼庫中生成或修改代碼，以修復錯誤和實現新功能。這不僅要求它們對代碼生成進行推理，還要求它們全面了解整個代碼庫和項目需求。此外，軟件開發不僅要求代碼正確，還要求在計算效率和內存使用方面進行優化，這給評估過程增加了額外的復雜性。數學包含兩種主要類型的任務：計算和證明。雖然基礎算術和計算任務有大量數據可用，但在高等數學中，尤其是在高等教育和研究中，數據稀缺仍然是一個重大挑戰。為了解決這一限制，必須更有效地利用領域知識進行數據合成，以減輕數據稀缺的影響，并利用現有的數學知識，如定理，來改進數學證明。此外，數學定理證明通常缺乏有效的方法來驗證證明解決方案，這使得訓練大語言模型生成嚴格正確的數學推理解決方案變得困難。數據科學涉及處理大量數據集，但任務描述往往缺乏關于輸入數據分布的足夠細節，這使得大語言模型難以生成最合適的解決方案來很好地對大型數據集進行建模。這也使評估大語言模型生成的輸出變得復雜，需要進行多層次評估。此外，利用全面的數據建模技術知識庫對于開發更有效的方法來解決復雜的數據科學問題至關重要。科學研究通常涉及開放式問題，這使得我們無法直接訓練大語言模型來解決科學問題。一種潛在的解決方案是讓人類參與這個過程（人類 - 大語言模型協作），允許人類和大語言模型之間進行迭代協作，以探索現有的科學文獻和人類知識，產生新的想法，并實現整個研究流程的自動化。這些挑戰凸顯了對復雜問題求解進行進一步研究的必要性，這需要超越當前的推理大語言模型。

本文對當前大語言模型在解決復雜問題方面的進展進行了全面概述，并超越了推理大語言模型的文獻范圍。我們的目標是回顧為大語言模型開發的關鍵技術，以及這些方法如何應用于應對不同領域的挑戰。本文分為四個部分來討論當前大語言模型的研究：

?復雜問題求解的定義：我們首先從認知科學和計算理論的角度正式定義復雜問題求解（第 2 節）。

?方法：我們研究大語言模型研究中解決復雜問題的關鍵方法，包括多步推理、知識增強和結果驗證（第 3 節）。

?領域：我們探索在軟件工程、數據科學、數學和科學研究這四個領域中的復雜問題求解，突出每個領域的獨特挑戰以及為解決這些挑戰而開發的解決方案（第 4 節）。

?當前的局限性和未來方向：我們討論當前研究的局限性，并提出未來研究的潛在方向（第 5 節）。

大語言模型在知識增強復雜問題求解中的綜述-AI.x社區

圖 2. 人類和人工智能解決問題的兩種范式

2 復雜問題求解的定義

我們可以從認知科學和計算理論兩個角度定義復雜問題求解。認知科學研究人類如何利用其內在能力解決問題。相比之下，計算理論探索如何利用機器解決問題，強調設計算法以實現復雜計算的自動化。當考慮大語言模型在解決復雜問題中的作用時，出現了兩種潛在的范式：（1）直接問題求解：大語言模型自主生成類似于人類專家的解決方案；（2）利用計算系統解決復雜問題：大語言模型提取并定義問題的計算組件，利用傳統計算機執行密集計算，同時專注于設計解決方案和協調流程。基于這些范式，本節將更深入地探討在認知科學和計算理論框架中如何定義復雜問題求解。

2.1 定義

定義 1（問題）：一個問題\Pi(X, Y, P)由以下兩部分描述：（1）其參數x的描述；（2）一個陳述（即謂詞邏輯）P(Y; X)，它刻畫了解決方案必須滿足的屬性。形式上，目標集定義為G = \{Y \in Y | P(Y; X)\}，其中y是最終結果的空間，P是一個謂詞邏輯，意味著當X = X時，P(Y; X)表示最終結果Y應滿足的屬性。問題的一個實例\pi是通過為所有問題參數指定特定值獲得的，即\pi := \Pi(X = X)。

一個問題可以看作是一項任務，即從一組可能的候選解決方案中找到一個解決方案。謂詞P(Y; X)規定了一個答案被認為有效的條件。在不同的問題中，謂詞P(Y; X)可能是明確定義的，也可能不是。例如，在最短路徑問題中，答案空間y由所有可能的路徑組成，謂詞P(Y; X)是明確定義的，規定最終結果Y（一條路徑）必須滿足總權重最小的屬性。相比之下，在數據挖掘任務中，目標是發現數據中有洞察力的模式。然而，什么構成 “有洞察力的” 模式并沒有明確定義，這使得謂詞P(Y; X)更具主觀性和上下文依賴性。

基于問題的定義，我們現在可以正式將問題求解定義為確定一系列從初始狀態到目標狀態的轉換過程。

定義 2（問題求解）：問題求解是為問題實例\pi找到一個解決方案軌跡T(\pi) \in T_{feasible } \subseteq T的過程，其中T_{feasible }是所有可能的解決方案軌跡的集合，正式定義為：

\mathcal{T}_{feasible } := \{X \to O_1 \to ... \to O_{\kappa} \to Y | X \in X, Y \in \mathcal{G}, \kappa \in \mathbb{N}^{+}, \forall_{1 \leq i \leq \kappa} O_{i} \in O\}

T是所有可能軌跡的集合：

\mathcal{T} := \{X \to O_1 \to ... \to O_{\kappa} \to Y | X \in X, Y \in \mathcal{Y}, \kappa \in \mathbb{N}^{+}, O_{i} \in O\}

O是問題求解過程中所有可能的中間狀態的集合。

大語言模型在知識增強復雜問題求解中的綜述-AI.x社區

這個定義強調了問題求解的迭代性和狀態依賴性，其中中間狀態O_i捕捉了導致最終結果Y的不斷演變的理解或部分解決方案。然而，驅動狀態轉換的機制和可行解決方案軌跡的約束因問題解決者的性質而異。

從以人類為中心的角度來看，問題求解本質上受到個人認知能力的限制。從一個狀態到另一個狀態的轉換不僅受邏輯推理的影響，還受領域知識、先前經驗和實時反饋的影響。因此，不同的人可能會根據他們可用的認知資源在T_{feasible }中遵循不同的路徑。正式定義如下：

定義 3（以人類為中心的問題求解）：以人類為中心的問題求解是具有認知能力c（包括領域知識、邏輯推理、利用實時反饋和其他認知資源）的人，為問題實例\pi找到解決方案軌跡T(\pi)的過程。從中間狀態O_i到下一個狀態O_{i + 1}的轉換由認知引導的轉換函數控制：

大語言模型在知識增強復雜問題求解中的綜述-AI.x社區

其中\mathcal{P}(O)是O的冪集，表示所有可能的下一個狀態，轉換函數\Gamma(O_i, C)根據問題解決者的認知能力確定可行的下一個狀態集。

相反，從計算機輔助的角度來看，問題求解是從計算理論的角度進行的。在這里，狀態轉換由形式算法而不是認知能力控制。

定義 4（計算機輔助問題求解）：問題求解是設計算法A來解決問題\Pi(X, Y, P)的過程。算法是計算機可執行的有限指令序列，用于產生解決方案。形式上，算法被定義為一個五元組：

大語言模型在知識增強復雜問題求解中的綜述-AI.x社區

其中X是輸入空間，描述問題的所有可能參數；Y是輸出空間，代表所有潛在的解決方案；O是狀態空間，包含算法執行過程中的所有可能狀態；\delta: X ?— O \to O是狀態轉換函數，指定算法如何根據輸入從一個狀態轉換到下一個狀態；\sigma_0 \in O是初始狀態，代表算法的起始條件。如果對于問題\Pi的任何實例\pi，算法都能保證產生一個滿足謂詞P(Y; X)的解決方案Y \in G，則稱該算法解決了問題\Pi。

通過比較這兩個定義，我們觀察到它們有一個基本的相似之處：都專注于找到解決問題的步驟。然而，它們的重點有所不同。以人類為中心的問題求解主要關注解決特定問題實例\pi的過程，而計算機輔助問題求解則強調設計相對通用的算法來解決一類問題\Pi。

2.2 示例

讓我們以機器學習任務為例（圖 3）。開發一個高質量的機器學習模型可以被構建為一個問題求解過程，在這個過程中，我們尋求一個可行的解決方案軌跡T(\pi) \in T_{feasible }。這個過程中的每一步都對應于一個狀態轉換 (O_i \to O_{i + 1})，由推理、領域知識和迭代評估驅動。最初，我們通過確定任務并將其構建為機器學習公式來定義問題。然后，我們通過分析數據、應用預處理技術和進行特征工程來過渡到中間狀態。一旦數據處理完畢，我們選擇合適的建模技術并開發模型進行訓練。為了優化這些轉換，領域知識起著至關重要的作用，它指導著合適模型和訓練策略的選擇。知識可能來自歷史方法、理論研究或專家直覺，塑造了可行的狀態空間 T_{feasible }。開發有效的機器學習模型需要對每種方法進行多輪評估，包括人工評估和實驗評估。由于機器學習模型依賴于從訓練數據中學習數據分布來進行預測，僅通過檢查來評估解決方案的質量是具有挑戰性的。相反，通過人工評估和實驗測試進行的實證驗證，在收斂到最優解決方案 Y 之前確定模型的有效性。

大語言模型在知識增強復雜問題求解中的綜述-AI.x社區

圖 3. 案例研究：機器學習領域的示例

3 方法論

圖 4 展示了基于大語言模型的復雜問題求解技術。當前的思維鏈大語言模型通過數據合成進行訓練。這個過程始于生成思維鏈數據，接著使用驗證器選擇正確的思維鏈樣本用于模型訓練。在推理過程中，大語言模型生成多個思維鏈解決方案，然后使用驗證器為給定任務識別正確的解決方案。數據合成有多種方法。一種方法是讓大語言模型自主生成思維鏈數據，這要求基礎模型訓練良好。對于訓練數據有限的應用，可以對現有數據集進行知識挖掘來合成數據，同時也可以融入人類專業知識。此外，挖掘出的知識可以在推理過程中注入大語言模型，而不僅僅用于訓練。某些應用產生的結果難以驗證，比如機器學習任務。在這種情況下，可以采用多種驗證方法。除了使用基于大語言模型的驗證器，還可以進行符號驗證和實驗評估。此外，人類專家也可以參與驗證過程。

大語言模型在知識增強復雜問題求解中的綜述-AI.x社區

圖 4. 復雜問題求解的循環

3.1 多步推理

大語言模型的思維鏈推理已被證明對解決復雜問題是有效的。這一研究方向始于 [136]，該研究表明，通過提供一些推理路徑示例的思維鏈提示，可以增強大語言模型的推理能力。[64] 隨后證明，通過簡單地使用 “讓我們一步一步思考” 這樣的提示，鼓勵大語言模型生成中間推理步驟，思維鏈推理可以在零樣本設置中提高性能。[132] 表明，對多個推理路徑進行采樣并使用多數投票法，可以進一步提高大語言模型在推理任務中的性能。[155] 引入了思維樹（ToT），它允許大語言模型在思維上探索多個推理路徑，以提高大語言模型的推理能力。

我們可以利用圖 4 所示的架構來改進思維鏈推理，以解決復雜問題。當提出一個問題時，由大語言模型驅動的生成器會生成多個推理路徑。然后，驗證器評估這些路徑的準確性。如果一些推理路徑被驗證為正確，它們將被用于形成問題的答案。然而，如果沒有一條路徑被認為是正確的，就會使用校正器，通過修改不正確的路徑并結合驗證器提供的額外反饋來創建新的推理路徑。在這種方法中，提高任何給定問題獲得正確解決方案的可能性，需要改進兩個關鍵指標：

?覆蓋率：至少可以使用生成的一條推理路徑解決的問題的百分比。

?精度：從所有生成的路徑中選擇正確推理路徑的概率。

為了提高覆蓋率，我們需要對生成器和校正器進行微調，以增加產生有效推理路徑的機會。為了提高精度，必須對驗證器進行微調，以更準確地識別正確路徑。

?生成器：為了優化生成器，我們不能僅僅依賴人類生成的數據，而應該合成帶有推理路徑的數據。[159] 提出了一種迭代過程，生成多個推理路徑，選擇正確的路徑，并使用它們進一步微調大語言模型，逐步提高其產生準確推理的能力。此外，他們引入了一種 “合理化” 技術，利用問題的答案作為提示，來增強推理路徑的生成。[113] 采用了類似的迭代方法，生成推理路徑來微調大語言模型，并使用微調后的大語言模型生成更多推理路徑。主要的區別在于，這項工作通過溫度采樣生成多個路徑，并使用二元獎勵函數對它們進行評分，而 [159] 使用貪婪解碼來生成推理路徑。兩項研究都表明，大語言模型會很快對生成的數據產生過擬合。[7] 表明，使用較弱的大語言模型生成高質量的合成數據也是可行的，并且在由較弱大語言模型生成的數據上進行微調的模型，其性能通常優于在由較強大語言模型生成的數據上訓練的模型。

?自校正：我們可以利用前一次嘗試中不正確的推理路徑和驗證器的反饋，來增加下一次迭代中生成正確路徑的概率。這個過程被視為自校正。[52] 表明，現有的大語言模型，如 GPT-4 和 Llama-2，在用于自校正時，無法增加生成正確路徑的概率。與標準提示方法相比，它們往往會降低獲得正確解決方案的概率。這表明我們需要一個經過專門微調的大語言模型用于自校正。Pair-SFT [139] 訓練了一個獨立的校正器模型，來優化生成器模型的輸出。他們創建了一個由響應對（(y, y')，其中y是對問題的初始響應，y'是校正后的版本）組成的數據集，來訓練校正器。SCoRe [65] 采用強化學習方法，訓練一個單一的大語言模型，使其既能生成初始響應，又能進行自校正。他們發現，以前的方法由于分布轉移或基礎模型偏差的放大而無效。通過使用單個大語言模型進行響應生成和校正，SCoRe 避免了單獨的生成器和校正器模型之間出現的分布不匹配問題。

?推理縮放定律：生成許多推理路徑并選擇正確的路徑成本很高。問題越難，我們可能需要采樣的推理路徑就越多。這里一個關鍵的研究問題是，如何明智地使用計算資源，為任何給定的問題找到正確的路徑。[10] 闡述了推理時計算的縮放定律。他們觀察到，覆蓋率隨著從大語言模型生成的樣本數量幾乎呈對數線性增長，如果生成許多推理路徑，覆蓋率可能會達到 100%。他們進一步發現，在解決一些較簡單的問題時，使用較弱的模型生成更多樣本可能比使用更大的大語言模型更具成本效益；然而，在解決更困難的問題時，更強的大語言模型更受青睞。[114] 從多個方面研究了在生成正確推理路徑時，縮放推理時計算的 “計算最優” 策略。當使用獎勵模型搜索良好的推理路徑時，他們評估了不同的搜索策略，包括最佳 N 搜索、束搜索和前瞻搜索，并得出結論，束搜索對于更難的問題和較低的計算預算更合適，而最佳 N 搜索對于較容易的問題和較高的預算更有效。另一個方面是更新生成器模型的提議分布，以增加生成良好推理路徑的概率。一種選擇是并行生成多個推理路徑，另一種選擇是使用經過微調的大語言模型迭代地修改自己的答案，這會導致順序測試時推理。他們表明，較容易的問題受益于順序推理，而較難的問題則需要一定比例的順序與并行推理。計算資源也可以分配給預訓練。為了解決難題，應該將一些計算資源用于預訓練，而對于較容易的問題，我們只需要將計算資源用于推理。

3.2 知識

解決復雜問題需要有效地利用知識。一方面，許多復雜問題求解任務本質上是特定領域的，如果沒有專業知識，有效地解決這些問題就會成為一個挑戰。另一方面，處理這些任務的過程涉及多方面的程序，而現有的大語言模型往往缺乏所需的可靠性和穩健性。因此，獲取和增強這類專業知識，是有效解決復雜問題的關鍵問題。

為了獲取這類知識，最簡單和最直接的方法是特定領域的預訓練 [115]。雖然大語言模型在訓練過程中獲取了世界知識，但研究表明，它們在記憶和將這些知識應用于實際任務（特別是長尾信息）方面并不可靠 [121]，并且多項研究 [38, 106] 表明，在預訓練后，它們無法通過監督微調（SFT）獲取新的事實性知識。與這些方法不同，基于提示的增強技術，如 RAG [36]、GraphRAG [30, 48] 和 KAG [78]，可以將領域知識直接嵌入到特定任務的上下文中。在此基礎上，許多研究通過信息提取 [141, 167, 168]、構建特定領域的知識圖譜 [24, 169, 181] 或過程提取 [158] 等方法來探索獲取這類知識，同時也可以使用大語言模型直接生成特定任務的工作流程 [104, 165]，并通過人類交互反饋對其進行優化 [9]。以下部分將根據所處理知識的類型，介紹各種相關研究。

?領域知識：領域知識旨在為復雜任務提供先驗信息，提供全面的介紹、詳細的描述和相關背景 [18, 42, 102]。[80] 提出了一種計算框架，通過集成目標導向的動態知識生成機制，增強智能體的問題解決能力。[126] 引入了知識驅動的思維鏈（KD-CoT），這是一個利用外部知識來驗證和完善推理軌跡的框架，從而減少幻覺并降低錯誤傳播。[73] 引入了知識鏈（CoK），這是一個創新的框架，通過動態集成來自不同來源的基礎信息來增強大語言模型。[101] 提出了 Physics Reasoner，這是一個知識增強框架，利用大語言模型來解決物理問題。

?過程知識：過程知識是指為解決復雜問題而設計的工作流程或認知模式，通常用于規范和指導大型模型的推理過程。像 MoT [72] 這樣的技術，利用合成和提取的高質量思維過程作為外部記憶，為模型提供卓越的問題解決示例。此外，BoT [150] 范式引入了元緩沖區，存儲跨任務的認知模板，這些模板包含通用的推理模式和知識結構，可以在各種特定問題中重復使用和實例化，從而實現高效推理。此外，像 Expel [177] 這樣的方法，還包括通過環境交互收集經驗池，模型可以從類似的經驗中學習，對比成功和不成功的軌跡，以獲得新的見解并提高任務推理能力。[182] 引入了 KnowAgent，這是一種通過集成顯式動作知識來提升大語言模型規劃能力的方法。[135, 165] 的其他研究使用工作流程，有選擇地引導智能體解決復雜問題。

?人機交互：即使有外部知識庫，大語言模型在處理細微或特定領域的信息時仍然可能遇到困難，它們往往缺乏人類專家所擁有的深入上下文理解。為了解決這個問題，大語言模型可以與人類合作，通過讓人類提供關鍵見解來彌合這一差距，確保大語言模型專注于相關信息，并根據專業知識完善其解釋。例如，在法律或醫學研究等任務中，人類可以引導大語言模型優先考慮某些模型可能忽略的參考文獻或細微差別 [4, 55, 117, 140]。為了實現這種人機大語言模型協作，我們需要設計直觀、用戶友好的界面，促進人類和大語言模型之間的有效溝通和交互 [26, 174]。這些界面應該能夠實現有效的雙向通信，用戶可以提供反饋、澄清模糊的輸入，并實時跟蹤大語言模型的推理過程。一個設計良好的界面可以促進信任、增強協作，并確保大語言模型能夠被專家和非專家有效地使用。

3.3 評估

在處理復雜問題時，評估解決方案的有效性，對于提高基于大語言模型系統的可靠性和確定更好的方法至關重要。先前的研究 [97, 110] 表明，大語言模型在數學推理中很容易被無關信息干擾。這表明大語言模型可能并沒有真正掌握數學概念，而是依賴模式匹配來生成響應。此外，[93] 強調，大語言模型在罕見任務上的表現比在更常見的任務上更差，即使這些任務具有相同的復雜程度。而且，大語言模型對其訓練數據（互聯網文本）中輸入和輸出的概率分布很敏感，即使是確定性任務也是如此。當大語言模型應用于在線上不太常見的特定領域問題時，這些挑戰會更加明顯。為了全面評估解決方案，可能需要考慮多個評估標準，如正確性和效率。確保解決方案滿足實際需求，需要開發和集成多種評估技術，以有效地分析大語言模型生成的解決方案。

為了改進思維鏈推理，我們需要一個驗證器模型來選擇正確的推理路徑。[20] 在解決 GSM8K 中的數學問題時首次證明了這一點。這項工作表明，訓練一個驗證器模型，在多個解決方案中選擇正確的解決方案，與僅僅微調大語言模型相比，可以顯著提高測試解決率。因此，這里的一個關鍵問題是，如何訓練一個可靠的驗證器模型來確定正確的推理路徑。[81] 展示了使用過程監督來訓練過程獎勵模型（PRM）的有效性。這種方法首先為一個問題生成多個推理路徑，然后讓人類標注員為推理路徑的每個步驟標注標簽。這種方法需要大量的人力資源來準備訓練數據。[81] 采用主動學習來減少人類標注的工作量。[127] 提出了一種在訓練 PRM 時無需人類標注的方法。為了評估推理路徑中中間步驟的正確性，他們使用一個經過微調的大語言模型，從給定的步驟生成多個后續推理路徑。然后，該步驟的正確性得分由成功通向正確答案的路徑數量決定。[166] 訓練了一個生成模型作為驗證器，并表明生成模型的性能優于判別式驗證器。此外，他們還表明，訓練一個單一的大語言模型同時用于生成和驗證，其性能優于分別使用大語言模型進行生成和驗證。

除了基于大語言模型的驗證，還可以使用工具來驗證模型輸出，減少幻覺并提高準確性。這些驗證方法大致可以分為符號驗證和實驗驗證。

?符號驗證：符號驗證使用形式化方法來確保大語言模型輸出的正確性。這包括生成可執行代碼，并通過編譯驗證其語法和語義 [14, 34]。此外，還會將輸出與知識庫或知識圖譜進行比較，以驗證事實準確性。這些方法對于需要邏輯一致性的任務特別有效，如數學證明或特定領域的事實驗證 [19]。PAL [34] 使用符號推理來解釋自然語言問題，并生成程序作為中間步驟。這些程序在運行時環境（如 Python 解釋器）中進行驗證，確保生成代碼的邏輯和結構有效且可執行。在數學推理中，像 [162] 中的工具，為數值計算、方程求解和表達式轉換提供了專門的接口。這些接口允許模型驗證和糾正每個步驟，確保推理過程的正確性，就像符號定理證明一樣。Factool [19] 提供了一個靈活的、與領域無關的框架，用于識別事實錯誤。它通過使用多個驗證工具，包括搜索引擎、學術數據庫和代碼解釋器，來增強跨領域的事實驗證。

?實驗驗證：相比之下，實驗驗證通過實際測試和實證實驗來驗證模型 [12, 40, 76]。當形式驗證不切實際，或者目標是性能優化時，這種方法很有用。模型在實際環境或模擬中進行測試，性能通過與基準或競爭解決方案進行比較來衡量。在自動化數據科學中，像 AutoKaggle 這樣的框架，通過迭代進行實際測試、模型調整和比較分析，自主參與 Kaggle 競賽，優化數據分析管道并取得頂級性能，就是實驗驗證的例證。Grosnit 等人 [40] 精心安排結構化推理，以自動分析和優化解決方案，而 Li 等人 [76] 使用多智能體框架來生成、測試和改進模型。

對于關鍵應用，在高風險或不可預測的環境中應用大語言模型時，確保安全性和穩健性至關重要，因為錯誤的輸出可能會導致嚴重后果。大語言模型雖然強大，但由于幻覺、錯誤解釋或意外輸入，可能會生成不可靠或不安全的響應。在這種情況下，我們應該引入人工監督來驗證和糾正輸出，確保更安全、更可靠的決策。例如，在醫學診斷中，人類專家可以驗證人工智能生成的治療建議，以避免誤診或不安全的處方。

4 領域

本文研究了四個現實世界應用領域，在這些領域中，大語言模型可用于解決復雜問題：軟件工程、數學、數據科學和科學研究。我們將從多步推理、知識整合和結果驗證的角度，討論這些應用中的挑戰。

4.1 軟件工程

這涉及讓大語言模型在最少人工干預的情況下，執行復雜的軟件工程任務。該領域的核心任務通常分為兩個主要方面：代碼生成和代碼理解。代碼生成包括程序合成 [58, 69, 71, 124, 173]、代碼翻譯 [16, 100, 145]、自動程序修復 [53, 59, 107] 和代碼優化 [28, 144]，在這些任務中，大語言模型必須生成功能正確且高效的代碼，并滿足各種規范。另一方面，代碼理解側重于分析和解釋現有代碼，涉及源代碼摘要 [70, 133, 163]、代碼審查 [154] 和代碼搜索 [27, 122] 等任務。盡管這些任務的目標不同，但它們都要求大語言模型深入理解代碼庫的語法、語義和結構，并在多個抽象層次上進行推理。

使用大語言模型解決復雜的軟件工程任務存在一些獨特的挑戰。首先，這些任務需要多步推理，因為軟件開發通常涉及分解問題、在文件或函數之間保持上下文一致性，以及迭代優化代碼。其次，知識整合至關重要 —— 大語言模型必須具備基礎編程知識（如語法、算法）、特定領域的實踐（如工具使用、設計模式）以及大型代碼庫的知識。第三，結果驗證并非易事：生成語法正確的代碼是不夠的，它還必須能夠編譯、正確執行并滿足性能目標。與自然語言任務不同，軟件的正確性可以進行形式化測試，這為有效利用執行反饋既帶來了機遇也帶來了挑戰。

為應對這些挑戰，人們提出了多種模型和框架。在程序合成方面，諸如 Code Evol-Instruct [90] 和 OSS-INSTRUCT [137] 等方法通過合成數據生成和微調來增強大語言模型的能力，而 GraphCoder [84] 和 GALLa [176] 等方法則注入結構表示（如代碼圖）以改進語法和語義理解。基于反饋的機制，如 Self-Debugging [15]、LDB [180] 和 RLTF [82]，利用運行時輸出、編譯器錯誤或測試用例來迭代地指導模型優化。在代碼庫理解方面，像 StarCoder2、RepoCoder [164]、CoCoMIC [25]、DeepSeek-Coder [43]、SWE-GPT [91] 等工具利用代碼庫級別的信息、依賴圖和檢索增強生成（RAG），幫助模型在龐大且相互依賴的代碼庫中導航。對于代碼優化，PIE-Problem [157] 和 SBLLM [35] 等框架引入多程序員解決方案集和進化搜索策略，幫助大語言模型從各種優化技術中學習，并根據執行指標優化代碼。

未來軟件工程自動化的工作可能會集中在三個方向。第一，構建更強的具有推理意識的模型，這些模型能夠通過中間抽象（如偽代碼或符號計劃）生成和修改代碼。第二，增強長上下文和記憶機制，以處理復雜的代碼庫和跨文件推理。第三，納入閉環反饋系統，將自動測試生成、運行時分析和形式驗證集成到代碼生成過程中。通過結合這些方法，我們可以期待基于大語言模型的智能體從基本的代碼助手演變為有能力的自主軟件工程師。

4.2 數學

數學推理已成為評估大語言模型能力的關鍵基準，因為它不僅需要自然語言理解，還需要精確的邏輯推理、符號操作和深厚的領域知識 [108, 120]。該領域的主要任務包括算術計算問題 [45, 56, 83, 151]、數學應用題（MWPs）[37, 49, 63, 116] 和自動定理證明（ATP）[2, 152]。這些任務測試計算準確性、演繹推理、將現實世界場景數學建模的能力以及形式數學知識的應用等核心能力。它們共同構成了一個嚴格的框架，用于評估大語言模型是否能夠超越表面的語言生成，進行結構化、基于規則的問題解決。

然而，解決數學問題存在一些使其有別于其他復雜領域的獨特挑戰。一個主要挑戰是多步推理，因為許多數學任務需要順序且邏輯相關的操作，其中任何一個錯誤步驟都可能導致整個解決方案出錯。另一個關鍵挑戰是知識整合 —— 大語言模型不僅必須理解抽象原理（如歸納法），還必須理解特定領域的概念和定理，并識別何時以及如何應用它們，尤其是在研究生階段和研究中。這需要檢索和處理對大語言模型來說通常屬于長尾知識的特定領域知識。第三個挑戰是結果驗證，特別是在定理證明等場景中，結果的正確性只能通過人工評估或嚴格的形式檢查來確認。最近的研究 [92] 表明，當前最先進的大語言模型在數學競賽中能生成正確的最終結果，但解決方案卻是錯誤的。這些挑戰不僅要求流暢的文本生成，還要求模型進行精確推理、整合外部工具或知識庫，并驗證多步解決方案的正確性。

為應對這些挑戰，近期的研究引入了一系列專門的策略和系統。在計算能力方面，像 MathGLM [153] 這樣的模型通過課程學習在逐漸復雜的數學問題上進行預訓練，即使與更大的通用模型相比，也能實現卓越的準確性。基于提示的方法，如 MathPrompter [56]，通過生成和交叉驗證多個解決方案路徑來提高算術運算的準確性。在推理任務中，與 Prolog 的符號集成或像 Lean 這樣的證明助手（如 LeanDojo [148]、AlphaProof [22]）有助于彌合非正式推理和形式邏輯之間的差距，以驗證大語言模型生成的數學推理。在建模和抽象方面，針對數學應用題的符號求解器和自動形式化基準（如 LeanEuclid）[98] 等工作，展示了大語言模型如何將現實世界問題或幾何推理映射到形式數學表示中。此外，檢索增強系統和基于知識的工具包，如 DOCMATH-EVAL [179] 和 LeanDojo [148] 表明，整合結構化數學知識可以顯著提高在需要先驗定理或特定領域推理策略的任務中的性能。

展望未來，基于大語言模型的數學推理的未來工作可能會集中在深化模型在外部反饋和過程監督下進行形式推理的能力。開發將大語言模型與定理證明器、符號執行引擎甚至形式驗證編譯器相結合的混合框架，可以進一步提高結果的正確性和邏輯的可靠性。此外，用結構化數學知識庫豐富大語言模型，提高它們檢索相關先驗知識的能力，并在細粒度的證明步驟上進行訓練，可以增強它們進行高級數學推理的能力。最終，實現可泛化、可驗證和具有領域感知的數學推理，將是推動大語言模型更接近人類數學理解水平的關鍵。

4.3 數據科學

這是一個對大量數據進行數據分析和數據建模的領域 [172]。數據科學的主要任務圍繞一個復雜的多階段流程展開，包括任務理解、數據探索與分析、特征工程、模型選擇、模型訓練和評估。這些階段相互關聯，不僅需要技術執行，還需要根據輸入數據進行仔細推理和調整。與問題定義明確且固定的領域不同，數據科學需要不斷調整以探索輸入數據。

該領域的獨特挑戰源于其動態性和數據依賴性。首先，多步推理至關重要，因為早期階段（如特征提取）做出的決策會顯著影響后期階段（如模型性能）。其次，有效的解決方案通常需要特定領域的知識，而通用大語言模型不容易捕捉到這些知識；整合此類知識對于處理現實世界的復雜性至關重要。第三，驗證解決方案的質量特別困難，因為性能在很大程度上取決于輸入數據，而不僅僅是問題描述。這使得評估建模策略具有挑戰性。

當前的研究工作通過開發基于智能體的系統，在應對這些挑戰方面取得了顯著進展。Data Interpreter [50] 引入了一種基于圖的智能體，該智能體對流程階段之間的依賴關系進行建模，并相應地自動化代碼生成和優化。AutoKaggle [76] 采用多智能體框架，配備諸如規劃器、開發者和評審者等專門智能體，為表格數據任務提供端到端的解決方案，包括迭代調試和測試。Agent K [40] 通過學習記憶機制優化性能，利用強化信號為未來任務保留有用的策略。同時，DS-Agent [44] 采用基于知識的方法，構建一個從 Kaggle 競賽中獲得的專家見解知識庫，并應用基于案例的推理來生成更好的解決方案。這些系統使用 DS-Bench [61]、MLE-Bench [12] 和 MLAgentBench [54] 等平臺進行基準測試，這些平臺提供基于現實世界機器學習挑戰的結構化任務，以評估整個建模流程的性能。

展望未來，該領域的未來研究應集中在增強大語言模型從數據驅動的實驗中進行推理、適應和學習的能力。一個關鍵方向是開發知識豐富的建模智能體，這些智能體能夠納入常用庫之外的先進特定領域技術。另一個有前景的領域是整合實驗驅動的推理，使智能體能夠根據實際性能指標迭代地測試、評估和優化他們的建模策略。最后，使用包含實驗結果反饋循環和特定領域線索的思維鏈（CoT）機制訓練大語言模型，可能為實現更智能、更自適應的數據科學智能體提供一條途徑。

4.4 科學研究

人工智能（AI）在科學研究中發揮著越來越具有變革性的作用，支持數據分析、模擬、文獻綜述和創意生成等任務。其應用涵蓋眾多領域，例如在生物學中，AlphaFold [62] 和 RoseTTAFold [6] 等工具徹底改變了蛋白質結構預測；在物理學中，人工智能有助于加速粒子模擬 [66]；在天文學中，它們協助系外行星探測 [94]。在這些背景下，大語言模型在科學研究中主要有兩種用途：作為增強人類研究能力的工具，以及作為提出新穎科學假設或想法的共同創造者。

盡管取得了這些進展，但在科學發現中使用大語言模型仍存在一些顯著挑戰。首先，科學研究通常涉及目標不明確的開放式問題，這使得以保證準確或可驗證解決方案的方式應用大語言模型變得困難。此外，科學研究需要深入的特定領域知識，大語言模型必須有效地利用這些專業知識才能做出可靠的預測。這些挑戰使得大語言模型難以自主完成整個研究周期，尤其是當任務涉及開放式推理、抽象綜合或跨學科知識時。

由于科學研究的這些挑戰，大語言模型主要用作輔助科學任務的工具。例如，大語言模型已被用于加速生物醫學和環境科學等領域的數據解釋，在這些領域中，BioBERT 和 SciBERT 等預訓練模型有助于對特定領域的數據進行情境化理解 [8, 57, 68, 85]。在模擬和預測建模方面，大語言模型已應用于氣候預測和分子建模，利用它們的世界知識支持傳統模擬可能有限的場景 [11]。在文獻綜述和綜合方面，大語言模型通過總結大量文本語料庫，幫助研究人員揭示趨勢并識別知識差距 [8, 60, 85, 88, 109, 123]。更多的實驗工作使用大語言模型進行研究創意生成 —— 一些研究表明大語言模型可以生成新穎的科學想法，但也凸顯了評估和選擇高質量想法的困難，尤其是因為大語言模型本身并不是可靠的評估者 [5, 112, 128, 131]。此外，像 AI Scientist [87] 和 HEADS [118] 等基于智能體的系統展示了實現從創意生成到模擬同行評審的整個研究流程自動化的可行性，盡管它們在驗證這些流程以解決真正困難的現實世界科學問題方面仍有不足。

未來的研究可能會集中在通過整合更嚴格的評估機制和實現更深入的特定領域推理，來提高大語言模型在科學發現中的可靠性和影響力。一個關鍵方向是構建模仿科學團隊動態的多智能體協作框架，以使生成的想法更加多樣化和完善。另一個方向是將大語言模型與外部工具（如實驗數據庫、模擬引擎或形式驗證系統）相結合，以支持結果驗證并減少幻覺。最后，改善大語言模型生成的輸出與人工或實驗驗證之間的反饋循環，對于實現大語言模型成為科學過程中值得信賴的合作者至關重要。這些發展將有助于從推測性生成轉向對科學研究可驗證、有影響力的貢獻。

5 討論與未來方向

盡管在大語言模型解決復雜問題的研究方面已經取得了顯著進展，但仍然存在重大挑戰。為了進一步增強大語言模型處理復雜問題的能力，我們應從多步推理、知識和驗證這三個關鍵角度著眼對其進行改進。

多步推理

在訓練用于多步推理的大語言模型時，存在兩個主要問題：數據稀缺和高計算成本。

基于思維鏈的大語言模型通常在大量互聯網數據上進行預訓練，并通過大語言模型生成的合成數據進一步提升能力。然而，在許多專業領域，數據稀缺仍然是一個挑戰。例如，雖然像 Python 這樣廣泛使用的編程語言在網上有大量代碼語料庫，但像 Lean [21] 這樣不太知名的語言數據有限。盡管通過大語言模型生成合成數據可以提升大語言模型的能力，但這依賴于基礎大語言模型在特定領域得到良好的預訓練。因此，利用數據合成來提升大語言模型生成類似 Lean 語言代碼的能力，仍然是一個重大挑戰。類似的問題也出現在包括數學和科學在內的其他領域。解決數據稀缺問題的一種方法是開發將大語言模型與針對目標應用專門訓練的定制模型相結合的智能體。例如，在形式定理證明中，由于數據有限，定制模型可以幫助確定數學策略（策略）的適用性，并評估每一步之后證明是否朝著目標前進 [152]。這些模型通過強化學習 [103, 125, 134] 引導大語言模型做出明智的決策，即使在數據稀疏的領域也能增強其推理能力。

另一個問題是高計算成本。推理縮放定律已被視為增強大語言模型處理復雜問題能力的一種方式 [17, 32, 119, 129]。通過生成大量推理路徑，大語言模型更有可能為高度復雜的問題找到通向解決方案的路徑，但這是以增加計算量為代價的。例如，GPT-o1 及其后續版本 GPT-o3 與 GPT-4 相比，推理成本顯著更高。因此，降低推理成本至關重要。我們可以從幾個角度應對計算挑戰。首先，我們可以訓練更好的用于生成和自校正的大語言模型，以減少生成推理路徑 / 標記的嘗試次數。其次，我們應該探索各種搜索算法，以更有效地生成推理路徑。除了最佳 N 搜索，我們還應該探索束搜索和蒙特卡洛樹搜索。第三，我們可以減小大語言模型的規模以加快推理速度，這包括將大語言模型蒸餾成更小的模型，以及將知識從大語言模型中解耦以創建更緊湊版本等技術，從而降低計算需求。

知識

知識是解決復雜問題的基礎。目前，大語言模型在預訓練過程中通過對大量數據進行下一個標記預測來獲取世界知識，這帶來了一些挑戰。大語言模型可能無法可靠地記憶世界知識，尤其是長尾知識 [121]。因此，當前的大語言模型在訓練數據稀缺的領域中表現不佳。即使大語言模型保留了知識，它們在解決復雜問題時可能難以回憶起相關信息，或者可能缺乏正確應用知識來解決復雜問題的能力。

為了在解決復雜問題時有效地利用知識，一種方法是構建超越傳統基于三元組結構（僅包含實體和關系）的綜合知識圖譜。在機器學習的背景下，一個專業的知識圖譜不僅應包括技術的文字描述，還應包括其數學公式和相應的實現代碼。此外，它應該捕捉不同技術之間的關系，以促進對各種方法的探索，并在問題解決中促進創新。這樣的知識圖譜可以通過從學術論文、技術報告和教科書等來源提取信息，并經過仔細的驗證和核實來系統地構建 [89]。一旦構建完成，這個知識圖譜可以通過兩種關鍵方式加以利用。第一，它可以用于合成數據以進行模型訓練，從而應對數據稀缺的挑戰。第二，它可以在推理過程中通過檢索增強生成（RAG）方法支持問題解決，使模型能夠實時訪問和應用相關知識 [46]。

然而，大語言模型在表示和發現知識方面仍然面臨挑戰。它們在復雜任務中對思維鏈推理的依賴受到當前序列化技術的限制，這些技術難以從結構上捕捉特定領域的知識和邏輯（工作流程），同時對人類干預的支持有限 [95]。此外，大語言模型在平衡創新知識發現與邏輯可信度方面遇到困難，這往往導致產生幻覺性輸出。更復雜的是，大語言模型的動態適應能力不足以跟上快速變化的環境，因為知識更新延遲可能使決策策略失效。這些相互關聯的挑戰凸顯了進一步研究改進思維過程建模、增強特定領域知識發現與更新（編輯）[29, 130, 156, 170]，以及為復雜問題解決開發更強大適應機制 [33, 143] 的必要性。

評估

當前的大語言模型研究，如 OpenAI o1，主要集中在最終結果易于驗證的復雜問題上，如競技編程和數學推理。然而，實際應用有著更為復雜的要求，這使得最終結果的驗證變得復雜。首先，一些應用不僅要求解決方案正確，還要求實現效率或更高的準確性。例如，在機器學習任務中，雖然像隨機預測或多層感知器這樣的基線方法可以被視為 “正確” 的解決方案，但它們可能無法滿足期望的性能，人們更傾向于更有效的解決方案。此外，許多應用中的問題難以全面定義。還是以機器學習任務為例，任務描述和輸入數據的分布對于設計有效的解決方案都至關重要。然而，將輸入數據的分布傳達給大語言模型具有挑戰性。另外，在某些科學領域，如藥物發現、氣候建模或社會科學中，結果的驗證通常需要廣泛的實驗測試、重復實驗或進一步的理論分析，以確認其準確性和可靠性。

這些挑戰強調了需要強大的評估框架以及整合特定領域專業知識，以確保大語言模型生成輸出的可靠性。為了提高大語言模型輸出的可信度，采用多種評估方法至關重要。以機器學習任務為例，有幾種方法可以評估機器學習算法的有效性：第一，可以通過與先前發表的結果（如學術論文和技術報告）進行比較來評估算法的性能。第二，可以利用基于大語言模型的評估器來評估解決方案的質量。為了提高其準確性，應進行數據分析，從輸入數據中提取全面的見解，并將其提供給大語言模型。第三，實現機器學習算法并進行實驗，為其有效性提供實證評估。第四，對于某些機器學習算法，我們可以對算法進行一些理論分析，并通過像 Lean 這樣的符號驗證工具進一步驗證，確保對算法的正確性和有效性進行嚴格驗證。通過結合所有這些不同的評估方法，我們有可能對機器學習算法進行全面評估。我們相信類似的評估原則（基于大語言模型的評估、實證實驗、理論評估的組合）也可以應用于其他領域。

6 相關工作

已有幾篇綜述論文探討了基于大語言模型的推理。早期的工作，如 Qiao 等人 [105] 和 Huang 與 Chang [51]，對基于大語言模型的推理進行了概述，這對復雜問題解決至關重要。然而，這些綜述主要關注該領域的初期發展。隨著 GPT-o1 [99] 的發布，基于大語言模型推理的有效性得到了顯著展示。此后，眾多研究探索了 GPT-o1 背后的潛在機制。例如，Zeng 等人 [160] 和 Xu 等人 [142] 深入研究了能夠實現類似 o1 推理的技術，特別是通過強化學習。相比之下，本文從更廣泛的視角出發，探討了復雜問題解決所需的各種能力，而不僅僅聚焦于推理。

眾多綜述論文聚焦于基于大語言模型推理的特定領域。例如，Yang 等人 [147] 研究了形式數學推理的進展、挑戰和未來方向。Eger 等人 [31] 探索了使用大語言模型支持科學研究的最新進展，涵蓋了文獻搜索、創意生成、文本和多模態內容（如科學圖表和圖形）生成以及基于人工智能的同行評審等應用。Ahn 等人 [3] 對使用大語言模型進行的各類數學推理進行了概述。然而，這些工作并未涉及類似 o1 的技術。同時，Li 等人 [75] 專注于數學推理中的定理證明。該綜述并非僅依賴大語言模型，而是將定理證明分解為多個組件，并討論了各種深度學習技術在每個方面的應用。

7 結論

在這篇綜述論文中，我們從認知科學和計算理論的角度定義了復雜問題解決，并分析了不同復雜問題的特征。然后，我們研究了大語言模型（LLMs）的重大進展，重點關注復雜問題解決背景下的思維鏈推理和基于智能體的方法。我們討論了數據合成和強化學習如何增強大語言模型的多步推理能力。此外，我們還探討了基于智能體的方法如何使人工智能系統利用外部知識、執行工具和結果驗證。然而，我們也研究了這些方法在應用于不同類型復雜問題時的局限性。

本文轉載自??AIRoobt?? ，作者：DA ZHENG等

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

大語言模型在知識增強復雜問題求解中的綜述原創精華

1 引言