低Token高精度！字節復旦推出自適應推理框架CAR

2025-05-27 15:28:47

人工智能新聞

來自字節、復旦大學的研究人員提出自適應推理框架CAR，能根據模型困惑度動態選擇短回答或詳細的長文本推理，最終實現了準確性與效率的最佳平衡。

過度依賴CoT思維鏈推理會降低模型性能，有新解了！

來自字節、復旦大學的研究人員提出自適應推理框架CAR，能根據模型困惑度動態選擇短回答或詳細的長文本推理，最終實現了準確性與效率的最佳平衡。

推理能力的進步極大提升了大語言模型（LLMs）和多模態大語言模型（MLLMs）在各類任務中的表現。

但已有研究發現，長CoT推理并非總能提升準確率，甚至會削弱模型處理簡單任務的能力（可能產生冗長輸出）。

為此，研究人員提出了CAR這一基于置信度的自適應推理框架，它首先生成簡短回答并評估困惑度，僅在模型置信度低（困惑度高）時觸發推理。

在多模態視覺問答、關鍵信息提取及文本推理等多個基準測試中，CAR超越了單純的短回答與長推理方法，在準確性與效率之間取得了最佳平衡。

先導實驗設置

這項研究聚焦文本密集型視覺問答（VQA）和關鍵信息抽取（KIE）領域，選取8個具有代表性的公開數據集開展先導實驗。

其中，DocVQA、InfoVQA、ChartQA、VisualMRC等4個數據集構成VQA數據集，覆蓋文檔、圖表、信息圖等多種視覺文本形態；SROIE、CORD、FUNSD、POIE等4個數據集組成KIE數據集，主要用于票據、表格等結構化信息抽取任務。

以這些數據集為基礎，研究對Qwen2.5-0.5B模型進行微調，并在域內（如DocVQA、ChartQA）和域外（如POIE、InfoVQA）數據集上開展性能評估。

評估過程中，要求模型分別生成簡短答案和包含長文本推理過程的答案兩種輸出形式。

實驗完成后，系統性統計各數據集的準確率（Accuracy）和回答的困惑度（Perplexity，PPL）——PPL 值越低，表明模型對生成答案的置信度越高。

實驗分析結果顯示，PPL與準確率之間存在顯著的強負相關性。

從數據集層面分析，準確率與PPL呈現明顯的逆向關系（見圖1），即數據集整體準確率越高，其平均PPL值越低；深入數據集內部觀察，預測正確樣本的平均PPL分數顯著低于預測錯誤樣本（見圖2）。

基于上述發現，研究創新性提出一種基于PPL的動態推理決策機制。

具體而言，當模型輸出的PPL值超過設定閾值（研究以測試集PPL分布的75%分位數作為閾值）時，判定為低置信度場景，觸發長文本推理模式，以減少誤判風險；若PPL值低于閾值，則判定為高置信度場景，直接輸出簡短答案，提升推理效率。

實驗結果表明，采用該動態決策機制后，模型在絕大多數數據集上的性能均實現顯著提升。

以下為PPL取75%分位數為閾值下的性能對比：

提出自適應推理框架CAR

基于上述探索性的發現，這項研究工作擬開發一個使用困惑度（PPL）的動態推理決策框架Certainty-based Adaptive Reasoning（CAR），其目標是能夠在推理過程中自適應地在短文本推理和長文本推理之間切換。

如圖3(a)所示，研究人員首先使用包含簡短答案的示例和包含長文本推理解答的示例來訓練大語言模型（LLM）或多模態大語言模型（MLLM）。

隨后，借助訓練集的困惑度（PPL），估計正確和錯誤簡短答案的PPL分布，這些分布用于決策制定。

具體來說，如果估計的分布確定簡短答案是正確的，所提出的方法會直接輸出該正確答案。否則，它會執行長文本推理。推理過程如圖3(b)所示。

模型訓練

研究人員將同時包含簡短答案和長文本推理解答標注的訓練示例進行混合，構建新的數據集。隨后采用標準指令微調流程，模型接收由輸入文本和輸出文本組成的序列，優化目標為交叉熵損失：

模型訓練完成后，對訓練集中所有樣本進行短答案推理，生成預測答案并計算其困惑度值PPL。

Token序列的困惑度定義為：

高斯分布建模

設二元變量C表示短答案是否正確（C=1為正確，C=0為錯誤），假設正確與錯誤答案的PPL分布均服從高斯分布：

概率密度函數分別為：

最后，通過訓練數據估計其中參數（假設n₁和n₀分別為訓練集中正確與錯誤回答的數量）：

推理過程

對新輸入x，推理步驟如下：

1、短回答推理：模型生成短回答，并計算相應的PPL為PPL_new；

2、概率計算：根據貝葉斯定理，將PPL_new代入概率密度函數，計算后驗概率；

其中，先驗概率分別為：

3、決策規則：如果短回答的正確概率高于其可能錯誤的概率，直接輸出短回答；否則觸發模型的長推理。

實驗結果

下表展示了多模態數據集上的性能表現。

首先，CAR_Qwen2VL相比CAR_Short和CAR_Long的優越性能，證明了使用困惑度（PPL）作為推理路徑選擇指標的有效性。

此外，所提出的方法保持了還使用了更少的輸出Token數量（平均86.9個token），僅為Qwen2-VL_Long所使用Token數量的15%。

下表展示了基于文本的推理任務性能對比。

CAR方法表現出穩健的性能。具體地，使用Qwen2.5-7B模型時平均準確率達81.1%（上圖）；使用Llama3.1-8B時達74.9%，均優于短答案基線模型以及長文本推理模型（下圖）。

此外，CAR的性能均優于TALE和COD等先進的Token縮減方法。

小結一下，這項研究提出基于置信度的自適應推理框架（CAR），該框架可根據模型置信度動態切換短回答與長文本推理模式。

通過困惑度（PPL）量化模型對答案的置信度，CAR在高置信度時直接輸出短回答以提升效率，低置信度時觸發長文本推理以確保準確性。

按照研究團隊的說法，CAR打破了“長文本推理必然性能更好”的固有認知，為大模型推理提供了更靈活高效的解決方案，推動大模型推理向智能化、輕量化方向發展。

論文地址：https://arxiv.org/abs/2505.15154

責任編輯：張燕妮來源：量子位

模型推理 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看