成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1帶火的CoT到底行不行?新論文引發了論戰

人工智能 新聞
對于許多數據集和模型而言,僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規劃+ CoT 求解器是實現強大性能所必需的。

OpenAI ο1 的誕生極大地提升了人們對 LLM 推理能力和思維鏈(CoT)的興趣。一時之間,似乎思維鏈很快就會成為所有 LLM 的標配,但思維鏈并非萬能,就連 OpenAI 自己也提到 o1 在某些任務上的表現并不比 GPT-4o 強,尤其是以語言為中心的任務。

近日,一篇來自德克薩斯大學奧斯汀分校、約翰·霍普金斯大學和普林斯頓大學的論文引發了熱議,其模仿莎士比亞《哈姆雷特》的臺詞提出了一個對 AI 研究者和實踐者來說至關重要的問題:To CoT or not to CoT?

圖片

論文標題:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

論文地址:https://arxiv.org/pdf/2409.12183

GitHub 庫:https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT (待更新)

簡單來說,這篇論文研究了思維鏈(CoT)技術幫助 LLM 解決各式問題的有效性。

首先,該團隊分析了近期的相關文獻,比較了 CoT 與直接回答方法(DA)的性能表現。

之后,他們使用 20 個數據集和 14 個當今主流的 LLM 在零樣本提示和少樣本提示設置下進行了實驗。

圖 1 簡單總結了這兩項研究的結果。

圖片

結果表明,CoT 能極大助益 LLM 解決涉及數學和符號推理的任務,至于其它任務,CoT 的效果并不顯著甚至可能有損模型性能。

另一個發現是 CoT 能幫助提升執行計算和符號操作的執行步驟,但卻比不上能使用外部工具的 LLM。這是什么意思呢?該團隊發現,相比于使用直接回答方法,使用 CoT 時 LLM 能更好地生成可執行的形式化方案規劃;但如果使用語言模型來生成方案規劃,然后再使用外部符號解算器來求解該規劃,性能表現還會更好一些。

這樣的結果忽然讓 CoT 的處境變得有點尷尬:在 CoT 有用的問題上,我們能使用外部工具做得更好;在另一些問題上,CoT 的能力又有限。

因此,該團隊認為:「第一,很多廣泛使用 CoT 解決的問題其實根本沒必要使用 CoT:現在已有更高效方法,能以遠遠更低的推理成本取得相近的性能。第二,基于提示詞的 CoT 不夠用了,我們看到人們迫切地需要更復雜精妙的方法,比如基于搜索、交互式智能體或針對 CoT 進行過更好微調的模型的方法。」

文獻研究

首先,該團隊調研了近期的相關文獻,比較了使用或不用 CoT 的提示詞的效果。

具體指標和流程這里就不多介紹了。總之,他們從 110 篇論文(35 篇 ICLR 論文和 75 篇 NAACL 和 EACL 論文)中整理出了 1218 個實驗結果,涉及 264 個數據集。之后,他們將這些相關任務分成了 14 類,表 1 展示了其中幾類的定義。

圖片

文獻研究結果

圖 2 展示了 CoT 為不同類型的任務帶來的性能增量,即使用 CoT 提示法取得的性能減去使用直接回答法取得的性能。

圖片

可以看到,在這些任務上,CoT 平均僅能帶來 3.75% 的提升。其中 CoT 帶來增益最大的三類任務分別是:符號推理、數學、邏輯推理。在這三個任務上,CoT 實現的平均性能為 56.9,而不使用 CoT 的表現為 45.5。而在其它任務上表現較好的個例(圖中用黃色高亮標記出了 10 個),也或多或少與這三個任務有關。

但在其它任務上,CoT 的表現就沒什么亮點了,平均成績僅有 56.8,而就算不使用 CoT,直接回答法也能得到 56.1。該團隊認為,這一點點提升甚至不能算作是提升,畢竟 CoT 的計算成本明顯更高。

實驗研究

除了研究近期文獻,該團隊也執行了實驗,其中涉及到 20 個數據集和 14 個模型,并測試了零樣本提示和少樣本提示兩種設置,見表 2。

圖片

實驗研究結果

下面我們通過對一系列問題的解答來了解實驗結果。

1.在哪些任務上,零樣本 CoT 優于直接提示?

圖 3 左展示了 CoT 在五個推理類別(見圖 1 右)上帶來的平均性能增益;圖 3 右則是 CoT 在每個數據集上帶來的平均性能增益。

圖片

可以看到,在非符號推理類別和數據集上,特別是那些主要包含常識(CSQA、PIQA、SiQA)、語言理解(WinoGrande)和閱讀理解(AGI LSAT、ARC-Easy、ARC-Challenge)的問題上,零樣本 CoT 和零樣本直接回答的性能幾乎沒有區別。盡管這些數據集涉及推理,但 CoT 并沒有帶來增益。

相比之下,數學和符號類別(以及符號和半符號數據集)獲得了更大的提升。CoT 在 MATH 和 GSM8k 上帶來的增益分別高達 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符號數據集上,CoT 表現出了中等程度的增益。這些數據集需要應用邏輯規則才能得出答案,例如從簡單的自然語言(ContextHub)或更復雜的常識性陳述(MuSR Murder Mysteries)中解析得到的一階邏輯。

在少樣本設置下得到的實驗結果類似。

2.回答格式是否會影響 CoT 的有用性?

除了數學之外,許多常用的數據集都是多項選擇題。該團隊指出,對于兩個非多項選擇題的數據集(MuSiQue 和 BiGGen Bench,并且它們需要不同層級的非符號推理才能給出回答),CoT 的表現與直接回答相近。

因此,可以說回答格式對 CoT 的有用性的影響不大。并且,該團隊還表示,預先針對正確響應進行規劃或推理甚至可能妨礙 LLM 自由響應的能力。

3.CoT 在知識、軟推理和常識推理方面帶來的提升是否顯著?

在 13 個涉及知識、軟推理和常識推理的數據集上,該團隊測試了 CoT 的表現,結果發現:答案是否定的,但 MMLU、StrategyQA 和 MuSR 是例外。在這三個數據集上,CoT 可以帶來比較顯著的增益。

詳細研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是兩個范圍廣泛的數據集,因此很難簡單地描述它們的特征。該團隊詳細研究了 CoT 在 MMLU 中每個類別上的性能表現,以了解 CoT 在不同領域的性能差異。

表 3 給出了 CoT 能為 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上帶來最顯著提升的三個類別。

圖片

可以看到,其中一些與數學有關,這不出人意料,但也有的屬于「商業」等類別。不過更進一步研究發現,這些類別通常也涉及數學(比如資產計算等)。

因此,該團隊對 MMLU 進行了更細粒度的研究(實例級)。他們發現問題或生成的響應中是否包含 = 這個符號非常關鍵,可以說是「符號推理的一個強有力的標志」。結果見圖 4。

圖片

可以看到,當有 = 時,CoT 在 MMLU 和 MMLU Pro 上的表現明顯會更好。該團隊認為這是因為 = 通常出現在數學問題中。所以歸根結底,CoT 依然是能在數學問題上為 MMLU 和 MMLU Pro 帶來助益。

CoT 在形式推理方面的優勢和劣勢

下面來解釋 CoT 有助于符號推理任務的原因。很多符號和半符號推理任務都可以分成兩個階段:規劃與執行。該團隊也基于此思路進行了分析。

設置 1 和 2:少樣本直接回答和 CoT:使用之前的少樣本直接回答和 CoT 作為基線。圖 5 給出了在 GSM8K 上每個設置的示例。

圖片

設置 3 和 4:規劃 + 直接求解器以及計劃 + CoT 求解器。

設置 5:規劃+工具求解器。

評估結果

圖 6 展示了選出的代表性模型的結果。

圖片

可以看到,對于許多數據集和模型而言,僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規劃+ CoT 求解器是實現強大性能所必需的。使用其中一種方法跟蹤執行情況可帶來最大的準確性優勢,尤其是對于含有大量數學內容的數據集。

盡管 CoT 或規劃+ CoT 求解器比直接回答和規劃+直接回答更強,但規劃+工具求解器在大多數情況下還要更優。也就是說,很多時候,使用 CoT 還不如讓 LLM 使用工具。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2012-05-01 20:52:40

2019-10-25 15:45:00

Linux操作系統Windows

2024-10-12 13:51:22

2020-09-10 17:22:15

機器人人工智能系統

2011-04-21 11:47:21

P2000P105

2024-09-23 09:20:00

2024-09-20 15:35:33

2018-09-27 13:56:22

iPhone XS信號手機

2021-01-27 07:33:11

手機充電快充芯片

2024-11-07 15:40:00

2025-01-28 00:00:00

OOMSpringCglib

2024-09-24 11:01:03

2025-01-20 09:28:00

AI工具模型

2014-06-10 11:21:07

技術侮辱技術

2024-10-05 00:00:00

2025-04-29 09:06:00

2024-09-19 18:03:31

2025-01-08 13:08:55

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人午夜在线 | 国产在线1 | 91精品国产91久久久久游泳池 | 精品国产一级 | 久久激情av | 亚洲免费视频播放 | 国产网站在线 | 99久久精品免费看国产四区 | 亚洲 中文 欧美 日韩 在线观看 | 久久久一区二区 | 亚洲高清视频在线观看 | 97精品国产手机 | 欧美黄 片免费观看 | 成人在线视频免费观看 | 免费人成激情视频在线观看冫 | 国产成人精品久久二区二区91 | 中文字幕av网 | 国产精品国产a | 亚洲男女视频在线观看 | av国产在线观看 | av国产精品 | 狠狠干网站 | 人操人人| 国产美女h视频 | 国产精品一区二区视频 | 日韩精品一区二区三区视频播放 | 国产精品二区三区在线观看 | 久久精品一 | 国产精品一区二区三区四区 | 欧美精品综合在线 | 男女羞羞视频在线免费观看 | 高清国产一区二区 | 天天综合网91 | 麻豆亚洲 | 欧美亚洲综合久久 | 91视频网址 | 国产精品久久99 | 精品视频在线免费观看 | 国产丝袜一区二区三区免费视频 | 男人阁久久 | 涩色视频在线观看 |