成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全新CoD顛覆推理范式,準確率接近但token消耗成倍降低

人工智能 新聞
隨著推理模型 Deepseek R1 的爆火,Zoom 研究團隊將認知科學中的思維鏈注入進 AI 推理領域,開創性地提出 Chain of Draft(CoD)技術框架,重塑大語言模型推理范式。

如今,OpenAI o1 和 DeepSeek R1 等推理模型的發展,顯著提升了思維鏈 (CoT) 之類的技術在大語言模型 (LLM) 推理任務上的表現。這種范式鼓勵模型將問題分解為逐步探索,模仿人類的結構化推理過程。雖然這種方法有效,但它在推理時需要更多的計算資源,導致輸出冗長且延遲更高。

這種冗長與人類通常解決問題的方式形成了鮮明的對比:我們依靠簡潔的草稿或速記筆記來捕捉基本見解,而無需不必要的繁瑣。

受這種差異的啟發,來自美國 Zoom 視頻通訊公司的研究團隊提出了 Chain of Draft(CoD),這是一種新穎的提示策略,通過優先考慮效率和極簡主義,更接近人類推理。 

具體來講,CoD 鼓勵 LLM 在每個步驟生成簡潔、信息密集的輸出,而不是過度強調中間步驟。這種方法在不犧牲準確性的情況下減少了延遲和計算成本,使 LLM 更適合效率至上的實際應用。

圖片

  • 論文標題:Chain of Draft: Thinking Faster by Writing Less
  • 論文地址:https://arxiv.org/pdf/2502.18600

針對大語言模型傳統推理范式中的效率瓶頸,該研究捕捉到了人類思維中「關鍵信息快照」的本質特征,提出了 CoD。為了評估 CoD 的有效性,研究團隊在數學推理、常識推理和符號推理等需要多步推理的基準上進行了實驗。

結果顯示,在符號推理任務中,CoD 的信息密度達到標準 CoT 輸出的 14.7 倍,同時顯著減少了 token 的使用和延遲。

本文的研究貢獻包括:

  • 設計稀疏的推理草稿,僅需 7.6% 的 token 量即可完成等效推理深度,開創了認知啟發的模型壓縮新路徑;
  • 端到端推理延遲壓縮與部署成本的降低,推理延遲從 0.9 秒壓縮至 0.7 秒,實現「降本增效」的雙重突破;
  • 提出了新的大模型重構推理架構,為金融高頻交易、自動駕駛決策等時延敏感型應用提供了可行性驗證,標志著 LLM 從實驗室模型向工業引擎的實質性跨越。

方法概述

該研究創新性地提出了 CoD。CoD 提示將推理過程濃縮為最小的抽象表示。推理過程被提煉為一個簡潔的方程式,僅關注得出解決方案所需的基本數學運算。通過抽象出不相關的上下文細節,CoD 顯著減少了 token 數量,同時保持了透明度和正確性。

CoD 基于認知科學中人類思維模式,其信息密度是傳統 CoT 的 13.2 倍,在開發過程中,研究團隊通過跨學科迭代:

  • 首先基于思路鏈的結構化提示,構建端到端、簡化認知等特征的思維稿;
  • 繼而設計思維稿對大模型驅動推理賦能,在 Claude 3.5 Sonnet 上實現算術推理 token 消耗從 189.4 驟降至 14.3(節省 92.4%);
  • 最終通過并行稀疏注意力框架(吞吐量 + 3.8 倍)和動態批處理技術(批次彈性擴展 1-128)完成工業級優化,實測端到端延遲從 3.1 秒壓縮至 1.6 秒(降幅 48.4%),為高頻金融交易等場景提供亞秒級(<0.5s)高效推理支持。

下圖展示了 CoT 與 CoD 提示的區別:

圖片

實驗結果

研究中較為全面、科學地評估其有效性和性能,設置了一系列嚴謹且針對性強的實驗:基準測試實驗、效率驗證實驗和成本效益實驗。

  • 基準測試實驗選取了多個要求多步推理的基準測試,涵蓋了數學推理、常識推理和符號推理等領域。
  • 效率驗證實驗包括 token 消耗評估和推理延遲測試,其中 token 消耗評估包括精確測量 CoD 在各個基準測試任務中所使用的 token 數量,并與 CoT 進行對比;推理延遲測試通過 CoD 在不同任務中的端到端推理延遲,并與 CoT 進行比較。
  • 成本效益實驗基于 token 消耗和推理延遲等因素,計算 CoD 和 CoT 的單位推理成本。

推理試驗數據集考慮以下五個數學應用題基準,(1) 數學應用題的 GSM8K 數據集,(2) 結構各異的數學應用題的 SVAMP 數據集,(3) 各種數學應用題的 ASDiv 數據集,(4) 代數應用題的 AQuA 數據集,以及 (5) MAWPS 基準。


圖片

研究中所提出的模型方法在 GSM8K 這一數學推理任務中,在 GPT-4o 下,CoD 的準確率達到了 91.1%,CoT 的準確率為 95.4%,CoT 的準確率略高于 CoD。但 Token 消耗方面,CoD 僅需 14.3 個 Token,相比傳統模型的 161.2 個 Token。推理延遲也從傳統模型的 4.2 秒大幅壓縮至 1.0 秒,降低了 76.2%。

對于 Claude 3.5 Sonnet,CoD 和 CoT 的準確率表現相近。在 Token 消耗方面,CoD 相較于 CoT 下降了 79.1%,推理速度提升至 1.6 秒,延遲降低了 48.4%。這表明 CoD 在保證較高準確率的同時,極大地提升了推理效率,減少了計算資源的消耗。

圖片

對于常識推理任務(下表 2 日期理解),在 GPT-4o 下,CoD 的準確率為 88.1%,低于 CoT 的 90.2%。Token 消耗上,CoD 為 30.2 個 Token,CoT 則達到 75.7 個 Token,節省了 60.1% 的 Token,時間也從 1.7 秒降低到 1.3 秒。

對于 Claude 3.5 Sonnet,CoD 的準確率高達 89.7%,高于 CoT 的 87.0%,而 token 消耗相較于 CoT 下降了 82.0%,推理時間從 3.2 秒減少到 1.4 秒。CoD 在常識推理任務中同樣展現出高效性和準確性,能夠更快速且精準地處理常識性問題。

圖片

在原始 CoT 研究論文中提出的硬幣翻轉推理任務框架下,研究者要求大語言模型(LLM)根據一系列拋硬幣操作序列預測最終硬幣的正反面狀態。由于該研究的原始實驗數據集尚未開源,本研究嚴格遵循其方法論復現了包含 250 個測試樣本的基準數據集。研究人員按照相同的設計合成了一個包含 250 個示例的測試集,基于 NameDataset 數據集,從美國地區排名前 1000 的名字中隨機選擇 4 個,并隨機決定是否對每個名字拋硬幣。評估數據的示例如下所示。

圖片

GPT-4o 和 Claude 3.5 Sonnet 的測試結果如表 4 所示。在標準提示方式下,這兩個模型的準確率分別為 73.2% 和 85.2%。不過當采用 CoT和 CoD提示策略時,兩個模型均達到了 100% 的完美準確率。通過與 CoT 相比, CoD 顯著減少了 token 使用量,對于 GPT-4o 減少了 68%,對于 Claude 3.5 Sonnet 則減少了 86%。

圖片

更多實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-24 13:45:56

2025-03-13 10:40:00

2023-12-12 13:51:00

AI訓練

2023-10-26 08:40:15

模型隱私推理

2023-11-20 21:56:04

AI推理

2025-04-08 09:16:00

推理模型AI

2024-11-11 10:00:00

ChatGPT模型

2022-10-10 12:14:53

量子深度學習

2025-06-05 11:49:21

AI模型數據

2025-04-18 08:42:52

模型推理AI

2019-01-10 14:49:14

開源技術 工具包

2024-07-15 00:30:00

MetaAI 模型大語言模型

2023-09-25 10:04:37

模型AI

2021-10-11 17:27:50

框架計算機開發

2025-05-29 09:18:20

2024-06-06 10:08:32

2025-05-21 13:56:37

模型圖像AI

2024-09-12 13:50:00

模型訓練

2023-12-01 10:20:00

谷歌技術

2024-03-01 13:31:21

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久一区 | 97色在线视频 | 婷婷色成人 | 日韩视频高清 | 国产欧美日韩综合精品一区二区 | 成人一区二区三区视频 | 久色视频在线 | 超碰在线免费公开 | 日本精品视频在线观看 | 久久精品久久综合 | 请别相信他免费喜剧电影在线观看 | 久久视频免费观看 | 久久久精 | 国产传媒在线观看 | 国产激情在线 | 波多野结衣中文视频 | 激情久久网 | 成人久久18免费 | 在线 丝袜 欧美 日韩 制服 | 亚洲精品一区二区三区蜜桃久 | 一区二区三区观看视频 | 黄色毛片网站在线观看 | 精品国产一区二区三区久久狼黑人 | 国产成人精品免高潮在线观看 | 91av在线免费 | 色屁屁在线观看 | av中文天堂 | 黄色大片在线 | 日韩免费一区二区 | 日韩av在线一区 | 99精品国产一区二区三区 | 欧美在线一区视频 | 国产日韩一区二区三免费高清 | 亚洲一区 中文字幕 | av入口| 中文字字幕一区二区三区四区五区 | 久久久久久美女 | 亚洲精品中文在线 | 国产亚洲精品美女久久久久久久久久 | 国产高清在线观看 | 91精品久久久久久久久久小网站 |