大語言模型（LLM）是如何思考的？講講推動下一代人工智能推理的五種途徑

作者：張哲剛 2025-04-08 08:18:38

大語言模型需要能夠解決數(shù)學問題、能夠調試代碼、能夠得出合乎邏輯的結論，還要能夠檢查和改正自身的錯誤。通常而言，現(xiàn)代大語言模型的訓練目標往往是預測下一個詞語是什么，而不是去思考。那么，它們是如何突然變得非常擅長推理的呢？?

譯者 | 張哲剛

審校 | 重樓

大語言模型（LLMs）最早時期只是具備自動完成的功能，迄今為止，進步巨大，與當初已經不可同日而語。然而，僅僅是生成流暢的文本并不足以體現(xiàn)真正的智能——真正的智能是需要推理能力的。這意味著，大語言模型需要能夠解決數(shù)學問題、能夠調試代碼、能夠得出合乎邏輯的結論，還要能夠檢查和改正自身的錯誤。通常而言，現(xiàn)代大語言模型的訓練目標往往是預測下一個詞語是什么，而不是去思考。那么，它們是如何突然變得非常擅長推理的呢？

答案是一系列新技術使然——從提示工程到代理工具使用——這些技術推動著、指導著或在一定程度上直接促成著大語言模型日益成為有條不紊的思考者。下面，讓我們講講五種最具有影響力的策略，正是它們，推動著推理型大語言模型不斷邁向新的領域。

1.思維鏈提示：教大語言模型“逐步思考”

提高大型語言模型推理能力，起步最早且最能打的技術之一異乎尋常地簡單：讓模型解釋自身。

這種方法被稱為思維鏈（Chain-of-Thought，CoT）提示。意指提示模型在給出最終答案之前產生中間推理步驟。例如，不采用直接去問“17乘以24等于多少？”這種簡單直接的方式，而是用“讓我們一步一步地思考”來提示模型，引導它將問題分解為：17×24=(20×17)+(4×17)，諸如此類，等等。

這一理念最早于2022年正式提出，至今仍然是基礎性的指導思想。OpenAI的o1模型就被訓練為“在回答之前更多地思考”——其本質就是內化了類似CoT的推理鏈。它的繼任者o3則更進一步，以模擬推理的方式，在推理過程中暫停，用以反思和完善自身響應。

原理呢，則很簡單：通過強制實施中間步驟，避免模型草率地、跳躍式地一步得出結論，從而提升多步推理演繹能力。

2.推理時間計算擴展：給每個問題更多的思考時間

如果一個問題難度很大，那就用更多的時間去思考——人類是會這么做的，現(xiàn)在大語言模型也可以。

推理時間計算擴展，是指通過在生成過程中分配更多的計算這一途徑，來增強推理能力。模型可能會生成多個推理路徑，但最后會選出最佳路徑。這種“自洽性”方法已成為推理基準的標準。

OpenAI的o3-mini定義了三種推理程度選項（低、中、高），這些選項決定了模型在回答問題之前內部推理的時間長短。在高推理水平下，o3-mini在數(shù)學和編碼任務上的表現(xiàn)甚至優(yōu)于完整的o1模型。

2025年的論文《s1：簡單測試時間擴展》中引入了一種相關技術，預算強制（budget forcing），它使用特殊標記來控制推理深度。通過附加重復的“等待”標記，引導模型生成更長的響應、自我驗證并自我糾正。使用類似“最終答案”這樣的結束思考信號標記何時停止。這種方法在不修改模型權重的情況下擴展推理，從而提高了準確性——這是對經典“逐步思考”提示的現(xiàn)代化升級和改造。

代價也是有的，那就是準確性的延遲。但是如果是面對棘手或艱巨的任務，這通常是值得的，并且是利大于弊的。

3.強化學習和多階段訓練：優(yōu)秀推理予以獎勵

另一個改變游戲規(guī)則的因素：不要僅僅局限于預測單詞，而是要獎勵正確的推理。

OpenAI的o1和DeepSeek-R1這樣的模型是通過強化學習（RL）進行訓練的，以鼓勵優(yōu)秀的推理模式。這些模型不僅僅是模仿數(shù)據(jù)，還能夠獎勵生成有邏輯多步答案的推理。DeepSeek-R1的第一個迭代版本R1-Zero僅僅是使用了RL——并沒有監(jiān)督微調——就開發(fā)出了非常強大的推理能力。

然而，僅僅使用強化學習（RL）訓練有可能導致語言不穩(wěn)定的問題出現(xiàn)。所以最終DeepSeek-R1采用了多階段訓練方法：先進行強化學習推理，然后使用監(jiān)督微調來提高可讀性。同樣，阿里巴巴的QwQ-32B將強大的基礎模型和持續(xù)的強化學習擴展相結合，在數(shù)學和代碼方面體現(xiàn)了出色的性能。

結果如何？這些模型不僅能夠給出正確的答案，還能展示出正確答案是如何得到的——甚至學會了自我糾正。

4.自我糾正和回溯：推理，然后倒帶

當模型出錯時會發(fā)生什么情況？它自己能夠意識到并改正錯誤嗎？

一直以來，大語言模型都在努力進行自我糾正，但這方面一直有問題存在。2023 年，研究人員發(fā)現(xiàn)，僅僅是簡單地讓模型“再試一次”，對答案鮮有改善——有時甚至會使情況變得更糟。但2025年有了新的進展，回溯——一種經典AI策略，被引入到大語言模型中來。

騰訊AI實驗室的王姓工程師等人發(fā)現(xiàn)，在o1型模型中存在“思考不足”的問題：模型會在不同的想法之間跳躍，而不是一直堅持一條推理路線。他們的策略是對推理切換進行懲罰，鼓勵對每個想法進行深入探索。

與此同時，楊姓工程師等人提出了自回溯——當模型陷入僵局時，讓其重新回放，然后探尋更好的替代方案。這一策略與只依賴最優(yōu)推理解決方案的策略相比，準確率提高了超過四十個百分點。

這些創(chuàng)新有效地增加了推理時的搜索和規(guī)劃能力，呼應了深度優(yōu)先搜索等傳統(tǒng)AI方法，并將它們疊加在大語言模型的靈活功能之上。

5.工具的使用以及外部知識的整合：超越模型的推理

有時候，推理意味著知道何時該去尋求幫助。

現(xiàn)代大語言模型越來越多地調用外部工具——計算器、代碼解釋器、各種API甚至網絡搜索——來處理復雜的查詢。

阿里巴巴的QwQ-32B直接集成了代理功能，使其能夠在推理過程中調用函數(shù)或訪問API。谷歌的Gemini 2.0（Flash Thinking）也支持類似的功能——例如，它可以在推理過程中啟用代碼執(zhí)行，允許模型在其推理過程中運行和評估代碼。

這一點非常重要，原因在于某些任務——比如驗證實時數(shù)據(jù)、執(zhí)行符號數(shù)學或執(zhí)行代碼——超出了模型內部的能力。將這類子任務轉移出去，能夠讓大語言模型更專注于高階邏輯，從而顯著提高準確性和可靠性。

從本質上講，外部工具能夠讓大語言模型發(fā)揮超出其自身能耐的潛力——就像是一把數(shù)字瑞士軍刀，用精密儀器來擴展推理能力。

結論：推理是一個堆棧，而不是一個開關

大語言模型并不是一蹴而就就能“學會推理”——它們是通過一系列分層的技術來獲取這種能力的。這些技術包括訓練、提示、推理以及與外部世界的互動。思維鏈提示加強了結構，推理時間擴展增加了深度，強化學習（RL）改善了對齊性，回溯增強了自我意識，外部工具使用增加了覆蓋面。

至于像OpenAI的o1和o3、DeepSeek的R1、谷歌的Gemini 2.0 Flash Thinking以及阿里巴巴的QwQ這樣的頂級模型，則結合了這些策略中的幾種——可以稱之為將巧妙設計與認知支架融合在一起的混合方案。

隨著該領域的不斷發(fā)展，可以預見，內部推理過程與外部決策工具之間的耦合將會更加緊密。逐步走近我們的，不是僅僅能夠猜測下一個單詞，而是還能夠真正思考的大語言模型。

譯者介紹

張哲剛，51CTO社區(qū)編輯，系統(tǒng)運維工程師，國內較早一批硬件評測及互聯(lián)網從業(yè)者，曾入職阿里巴巴。

原文標題：How Do LLMs Think? 5 Approaches Powering the Next Generation of AI Reasoning，作者：Kate Koidan

責任編輯：姜華來源： 51CTO內容精選

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看