強迫模型自我爭論,遞歸思考版CoT熱度飆升!網友:這不就是大多數推理模型的套路嗎?
CoT(Chain-of-thought)大家都很熟悉了,通過模仿「人類解題思路」,進而大幅提升語言模型的推理能力。
這幾天,一個名為 CoRT(Chain-of-Recursive-Thoughts)的概念火了!從名稱上來看,它在 CoT 中加入了「遞歸思考」這一步驟。
具體來講,CoRT 能讓 AI 模型遞歸地思考它們的響應,生成替代性方案,并從中選擇最佳的一個。
這就像賦予了 AI 自我質疑或反駁的能力,并一遍一遍地嘗試。
通過將「結構化自我批判」和「遞歸思考模式」結合起來,提升語言模型的推理能力。
短短兩周時間,CoRT 在 GitHub 的星標數已經快突破 2k 了。
GitHub 地址:https://github.com/PhialsBasement/Chain-of-Recursive-Thoughts
從技術原理來講,相較于傳統的 CoT,CoRT 讓語言模型不僅能分步驟思考,還能在思考過程中反復回頭檢查、修正,形成類似于人類的「反思性思維」或「內省」的推理路徑。
然而,很多網友對 CoRT 的出現并沒有感到太激動。CoRT 是讓 LLM 更努力思考的不錯技巧,但稱不上什么新穎的 idea。它的工作原理就像一個加入了遞歸組件的元提示(meta-prompt)。
還有網友指出,這種方法在 2023 年的論文中《Improving Factuality and Reasoning in Language Models through Multiagent Debate》就出現了。
有網友發出疑問:CoRT 不就是現在大多數 LLM 的思考模式嗎?
比如在 Cursor 中配置的 Gemini 2.5 Pro,它的 CoT 就是這樣做的。模型會思考一分鐘,并反駁自己的答案,直到找到最無力反駁的答案。
再比如,CoRT 不就是 Qwen 和 R1 中的「but wait」模式嗎?模型一直思考,并自我反駁,兩者似乎沒有什么不同。
大家覺得,CoRT 是不是「新瓶裝舊酒」呢?請在評論區留言。
項目介紹
根據項目介紹,CoRT 的訣竅在于以下四個方面:
- 自我評估;
- 有競爭力的替代生成方案;
- 迭代優化;
- 動態思維深度。
工作流程包括了以下四個步驟:
首先,AI 生成初始響應。
其次,AI 決定它需要多少輪「思考」。
接著,對于每一輪思考:
- 生成 3 個替代性響應;
- 評估所有響應;
- 選擇最佳響應。
最后,最終響應就是這場 AI 大混戰的幸存者。
Web 界面使用方式(仍處于早期開發階段)
一,打開 start_recthink.bat
二,等待一會,讓它安裝依賴項
三,配置成功
如果你是運行在 linux 系統上,則依如下:
打開一個新的殼層(shell):
效果怎么樣呢?
作者使用 Mistral 3.1 24B 進行了測試,根據他的說法,CoRT 在編程任務中的表現從「meh」(一般般)升到了「holy crap」(碉堡了)。
我們來看一下示例,下圖為 Mistral 3.1 24B+CoRT:
下圖為 Mistral 3.1 24B 無 CoRT:
從結果來看,使用 CoRT 前后,Tic-tac-toe(井字棋)游戲從基礎的 CLI(命令行界面)變成了完全的 OOP(面向對象編程)。