全新CoD顛覆推理范式，準確率接近但token消耗成倍降低

作者：機器之心 2025-03-11 08:50:00

隨著推理模型 Deepseek R1 的爆火，Zoom 研究團隊將認知科學中的思維鏈注入進 AI 推理領域，開創性地提出 Chain of Draft（CoD）技術框架，重塑大語言模型推理范式。

如今，OpenAI o1 和 DeepSeek R1 等推理模型的發展，顯著提升了思維鏈 (CoT) 之類的技術在大語言模型 (LLM) 推理任務上的表現。這種范式鼓勵模型將問題分解為逐步探索，模仿人類的結構化推理過程。雖然這種方法有效，但它在推理時需要更多的計算資源，導致輸出冗長且延遲更高。

這種冗長與人類通常解決問題的方式形成了鮮明的對比：我們依靠簡潔的草稿或速記筆記來捕捉基本見解，而無需不必要的繁瑣。

受這種差異的啟發，來自美國 Zoom 視頻通訊公司的研究團隊提出了 Chain of Draft（CoD），這是一種新穎的提示策略，通過優先考慮效率和極簡主義，更接近人類推理。

具體來講，CoD 鼓勵 LLM 在每個步驟生成簡潔、信息密集的輸出，而不是過度強調中間步驟。這種方法在不犧牲準確性的情況下減少了延遲和計算成本，使 LLM 更適合效率至上的實際應用。

論文標題：Chain of Draft: Thinking Faster by Writing Less
論文地址：https://arxiv.org/pdf/2502.18600

針對大語言模型傳統推理范式中的效率瓶頸，該研究捕捉到了人類思維中「關鍵信息快照」的本質特征，提出了 CoD。為了評估 CoD 的有效性，研究團隊在數學推理、常識推理和符號推理等需要多步推理的基準上進行了實驗。

結果顯示，在符號推理任務中，CoD 的信息密度達到標準 CoT 輸出的 14.7 倍，同時顯著減少了 token 的使用和延遲。

本文的研究貢獻包括：

設計稀疏的推理草稿，僅需 7.6% 的 token 量即可完成等效推理深度，開創了認知啟發的模型壓縮新路徑；
端到端推理延遲壓縮與部署成本的降低，推理延遲從 0.9 秒壓縮至 0.7 秒，實現「降本增效」的雙重突破；
提出了新的大模型重構推理架構，為金融高頻交易、自動駕駛決策等時延敏感型應用提供了可行性驗證，標志著 LLM 從實驗室模型向工業引擎的實質性跨越。

方法概述

該研究創新性地提出了 CoD。CoD 提示將推理過程濃縮為最小的抽象表示。推理過程被提煉為一個簡潔的方程式，僅關注得出解決方案所需的基本數學運算。通過抽象出不相關的上下文細節，CoD 顯著減少了 token 數量，同時保持了透明度和正確性。

CoD 基于認知科學中人類思維模式，其信息密度是傳統 CoT 的 13.2 倍，在開發過程中，研究團隊通過跨學科迭代：

首先基于思路鏈的結構化提示，構建端到端、簡化認知等特征的思維稿；
繼而設計思維稿對大模型驅動推理賦能，在 Claude 3.5 Sonnet 上實現算術推理 token 消耗從 189.4 驟降至 14.3（節省 92.4%）；
最終通過并行稀疏注意力框架（吞吐量 + 3.8 倍）和動態批處理技術（批次彈性擴展 1-128）完成工業級優化，實測端到端延遲從 3.1 秒壓縮至 1.6 秒（降幅 48.4%），為高頻金融交易等場景提供亞秒級（<0.5s）高效推理支持。

下圖展示了 CoT 與 CoD 提示的區別：

實驗結果

研究中較為全面、科學地評估其有效性和性能，設置了一系列嚴謹且針對性強的實驗：基準測試實驗、效率驗證實驗和成本效益實驗。

基準測試實驗選取了多個要求多步推理的基準測試，涵蓋了數學推理、常識推理和符號推理等領域。
效率驗證實驗包括 token 消耗評估和推理延遲測試，其中 token 消耗評估包括精確測量 CoD 在各個基準測試任務中所使用的 token 數量，并與 CoT 進行對比；推理延遲測試通過 CoD 在不同任務中的端到端推理延遲，并與 CoT 進行比較。
成本效益實驗基于 token 消耗和推理延遲等因素，計算 CoD 和 CoT 的單位推理成本。

推理試驗數據集考慮以下五個數學應用題基準，(1) 數學應用題的 GSM8K 數據集，(2) 結構各異的數學應用題的 SVAMP 數據集，(3) 各種數學應用題的 ASDiv 數據集，(4) 代數應用題的 AQuA 數據集，以及 (5) MAWPS 基準。

研究中所提出的模型方法在 GSM8K 這一數學推理任務中，在 GPT-4o 下，CoD 的準確率達到了 91.1%，CoT 的準確率為 95.4%，CoT 的準確率略高于 CoD。但 Token 消耗方面，CoD 僅需 14.3 個 Token，相比傳統模型的 161.2 個 Token。推理延遲也從傳統模型的 4.2 秒大幅壓縮至 1.0 秒，降低了 76.2%。

對于 Claude 3.5 Sonnet，CoD 和 CoT 的準確率表現相近。在 Token 消耗方面，CoD 相較于 CoT 下降了 79.1%，推理速度提升至 1.6 秒，延遲降低了 48.4%。這表明 CoD 在保證較高準確率的同時，極大地提升了推理效率，減少了計算資源的消耗。

對于常識推理任務（下表 2 日期理解），在 GPT-4o 下，CoD 的準確率為 88.1%，低于 CoT 的 90.2%。Token 消耗上，CoD 為 30.2 個 Token，CoT 則達到 75.7 個 Token，節省了 60.1% 的 Token，時間也從 1.7 秒降低到 1.3 秒。

對于 Claude 3.5 Sonnet，CoD 的準確率高達 89.7%，高于 CoT 的 87.0%，而 token 消耗相較于 CoT 下降了 82.0%，推理時間從 3.2 秒減少到 1.4 秒。CoD 在常識推理任務中同樣展現出高效性和準確性，能夠更快速且精準地處理常識性問題。

在原始 CoT 研究論文中提出的硬幣翻轉推理任務框架下，研究者要求大語言模型（LLM）根據一系列拋硬幣操作序列預測最終硬幣的正反面狀態。由于該研究的原始實驗數據集尚未開源，本研究嚴格遵循其方法論復現了包含 250 個測試樣本的基準數據集。研究人員按照相同的設計合成了一個包含 250 個示例的測試集，基于 NameDataset 數據集，從美國地區排名前 1000 的名字中隨機選擇 4 個，并隨機決定是否對每個名字拋硬幣。評估數據的示例如下所示。

GPT-4o 和 Claude 3.5 Sonnet 的測試結果如表 4 所示。在標準提示方式下，這兩個模型的準確率分別為 73.2% 和 85.2%。不過當采用 CoT和 CoD提示策略時，兩個模型均達到了 100% 的完美準確率。通過與 CoT 相比， CoD 顯著減少了 token 使用量，對于 GPT-4o 減少了 68%，對于 Claude 3.5 Sonnet 則減少了 86%。

更多實驗結果請參閱原論文。

責任編輯：張燕妮來源：機器之心

AI 推理技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全新CoD顛覆推理范式，準確率接近但token消耗成倍降低

方法概述

實驗結果