o1帶火的CoT到底行不行？新論文引發了論戰

作者：機器之心 2024-09-20 12:43:36

對于許多數據集和模型而言，僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比，CoT 或規劃+ CoT 求解器是實現強大性能所必需的。

OpenAI ο1 的誕生極大地提升了人們對 LLM 推理能力和思維鏈（CoT）的興趣。一時之間，似乎思維鏈很快就會成為所有 LLM 的標配，但思維鏈并非萬能，就連 OpenAI 自己也提到 o1 在某些任務上的表現并不比 GPT-4o 強，尤其是以語言為中心的任務。

近日，一篇來自德克薩斯大學奧斯汀分校、約翰·霍普金斯大學和普林斯頓大學的論文引發了熱議，其模仿莎士比亞《哈姆雷特》的臺詞提出了一個對 AI 研究者和實踐者來說至關重要的問題：To CoT or not to CoT？

論文標題：To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

論文地址：https://arxiv.org/pdf/2409.12183

GitHub 庫：https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT （待更新）

簡單來說，這篇論文研究了思維鏈（CoT）技術幫助 LLM 解決各式問題的有效性。

首先，該團隊分析了近期的相關文獻，比較了 CoT 與直接回答方法（DA）的性能表現。

之后，他們使用 20 個數據集和 14 個當今主流的 LLM 在零樣本提示和少樣本提示設置下進行了實驗。

圖 1 簡單總結了這兩項研究的結果。

結果表明，CoT 能極大助益 LLM 解決涉及數學和符號推理的任務，至于其它任務，CoT 的效果并不顯著甚至可能有損模型性能。

另一個發現是 CoT 能幫助提升執行計算和符號操作的執行步驟，但卻比不上能使用外部工具的 LLM。這是什么意思呢？該團隊發現，相比于使用直接回答方法，使用 CoT 時 LLM 能更好地生成可執行的形式化方案規劃；但如果使用語言模型來生成方案規劃，然后再使用外部符號解算器來求解該規劃，性能表現還會更好一些。

這樣的結果忽然讓 CoT 的處境變得有點尷尬：在 CoT 有用的問題上，我們能使用外部工具做得更好；在另一些問題上，CoT 的能力又有限。

因此，該團隊認為：「第一，很多廣泛使用 CoT 解決的問題其實根本沒必要使用 CoT：現在已有更高效方法，能以遠遠更低的推理成本取得相近的性能。第二，基于提示詞的 CoT 不夠用了，我們看到人們迫切地需要更復雜精妙的方法，比如基于搜索、交互式智能體或針對 CoT 進行過更好微調的模型的方法。」

文獻研究

首先，該團隊調研了近期的相關文獻，比較了使用或不用 CoT 的提示詞的效果。

具體指標和流程這里就不多介紹了。總之，他們從 110 篇論文（35 篇 ICLR 論文和 75 篇 NAACL 和 EACL 論文）中整理出了 1218 個實驗結果，涉及 264 個數據集。之后，他們將這些相關任務分成了 14 類，表 1 展示了其中幾類的定義。

文獻研究結果

圖 2 展示了 CoT 為不同類型的任務帶來的性能增量，即使用 CoT 提示法取得的性能減去使用直接回答法取得的性能。

可以看到，在這些任務上，CoT 平均僅能帶來 3.75% 的提升。其中 CoT 帶來增益最大的三類任務分別是：符號推理、數學、邏輯推理。在這三個任務上，CoT 實現的平均性能為 56.9，而不使用 CoT 的表現為 45.5。而在其它任務上表現較好的個例（圖中用黃色高亮標記出了 10 個），也或多或少與這三個任務有關。

但在其它任務上，CoT 的表現就沒什么亮點了，平均成績僅有 56.8，而就算不使用 CoT，直接回答法也能得到 56.1。該團隊認為，這一點點提升甚至不能算作是提升，畢竟 CoT 的計算成本明顯更高。

實驗研究

除了研究近期文獻，該團隊也執行了實驗，其中涉及到 20 個數據集和 14 個模型，并測試了零樣本提示和少樣本提示兩種設置，見表 2。

實驗研究結果

下面我們通過對一系列問題的解答來了解實驗結果。

1.在哪些任務上，零樣本 CoT 優于直接提示？

圖 3 左展示了 CoT 在五個推理類別（見圖 1 右）上帶來的平均性能增益；圖 3 右則是 CoT 在每個數據集上帶來的平均性能增益。

可以看到，在非符號推理類別和數據集上，特別是那些主要包含常識（CSQA、PIQA、SiQA）、語言理解（WinoGrande）和閱讀理解（AGI LSAT、ARC-Easy、ARC-Challenge）的問題上，零樣本 CoT 和零樣本直接回答的性能幾乎沒有區別。盡管這些數據集涉及推理，但 CoT 并沒有帶來增益。

相比之下，數學和符號類別（以及符號和半符號數據集）獲得了更大的提升。CoT 在 MATH 和 GSM8k 上帶來的增益分別高達 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符號數據集上，CoT 表現出了中等程度的增益。這些數據集需要應用邏輯規則才能得出答案，例如從簡單的自然語言（ContextHub）或更復雜的常識性陳述（MuSR Murder Mysteries）中解析得到的一階邏輯。

在少樣本設置下得到的實驗結果類似。

2.回答格式是否會影響 CoT 的有用性？

除了數學之外，許多常用的數據集都是多項選擇題。該團隊指出，對于兩個非多項選擇題的數據集（MuSiQue 和 BiGGen Bench，并且它們需要不同層級的非符號推理才能給出回答），CoT 的表現與直接回答相近。

因此，可以說回答格式對 CoT 的有用性的影響不大。并且，該團隊還表示，預先針對正確響應進行規劃或推理甚至可能妨礙 LLM 自由響應的能力。

3.CoT 在知識、軟推理和常識推理方面帶來的提升是否顯著？

在 13 個涉及知識、軟推理和常識推理的數據集上，該團隊測試了 CoT 的表現，結果發現：答案是否定的，但 MMLU、StrategyQA 和 MuSR 是例外。在這三個數據集上，CoT 可以帶來比較顯著的增益。

詳細研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是兩個范圍廣泛的數據集，因此很難簡單地描述它們的特征。該團隊詳細研究了 CoT 在 MMLU 中每個類別上的性能表現，以了解 CoT 在不同領域的性能差異。

表 3 給出了 CoT 能為 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上帶來最顯著提升的三個類別。

可以看到，其中一些與數學有關，這不出人意料，但也有的屬于「商業」等類別。不過更進一步研究發現，這些類別通常也涉及數學（比如資產計算等）。

因此，該團隊對 MMLU 進行了更細粒度的研究（實例級）。他們發現問題或生成的響應中是否包含 = 這個符號非常關鍵，可以說是「符號推理的一個強有力的標志」。結果見圖 4。

可以看到，當有 = 時，CoT 在 MMLU 和 MMLU Pro 上的表現明顯會更好。該團隊認為這是因為 = 通常出現在數學問題中。所以歸根結底，CoT 依然是能在數學問題上為 MMLU 和 MMLU Pro 帶來助益。

CoT 在形式推理方面的優勢和劣勢

下面來解釋 CoT 有助于符號推理任務的原因。很多符號和半符號推理任務都可以分成兩個階段：規劃與執行。該團隊也基于此思路進行了分析。

設置 1 和 2：少樣本直接回答和 CoT：使用之前的少樣本直接回答和 CoT 作為基線。圖 5 給出了在 GSM8K 上每個設置的示例。

設置 3 和 4：規劃 + 直接求解器以及計劃 + CoT 求解器。

設置 5：規劃+工具求解器。

評估結果

圖 6 展示了選出的代表性模型的結果。

可以看到，對于許多數據集和模型而言，僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比，CoT 或規劃+ CoT 求解器是實現強大性能所必需的。使用其中一種方法跟蹤執行情況可帶來最大的準確性優勢，尤其是對于含有大量數學內容的數據集。

盡管 CoT 或規劃+ CoT 求解器比直接回答和規劃+直接回答更強，但規劃+工具求解器在大多數情況下還要更優。也就是說，很多時候，使用 CoT 還不如讓 LLM 使用工具。

責任編輯：張燕妮來源：機器之心

模型 AI 數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看