成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ACL 2025 | Revisiting Self-Consistency: 動態(tài)分布對齊視角下的大模型投票策略

人工智能
在ACL 2025會議上,小紅書搜索團(tuán)隊從動態(tài)分布對齊的視角出發(fā),系統(tǒng)性地考察了SC采樣過程中的溫度調(diào)整機制,并提出了一種基于置信度驅(qū)動的動態(tài)溫度校準(zhǔn)方法。該方法能夠根據(jù)生成推理答案的置信度動態(tài)調(diào)節(jié)采樣溫度,以實現(xiàn)推理路徑多樣性與答案分布收斂速度的平衡。

思維鏈(Chain of Thought, CoT)作為大規(guī)模語言模型推理能力的關(guān)鍵技術(shù),其性能在很大程度上取決于解碼策略的設(shè)計。自洽性(Self-Consistency, SC)方法通過對同一輸入生成多條推理軌跡,并以多數(shù)投票的方式選取最終答案,從而在無需額外模塊的前提下顯著提升了模型的推理準(zhǔn)確性和魯棒性。然而,關(guān)于SC機制的深層次原理尚未得以充分闡明,其中多樣性采樣參數(shù)對SC效果的影響也常被忽視。

在ACL 2025會議上,小紅書搜索團(tuán)隊從動態(tài)分布對齊的視角出發(fā),系統(tǒng)性地考察了SC采樣過程中的溫度調(diào)整機制,并提出了一種基于置信度驅(qū)動的動態(tài)溫度校準(zhǔn)方法。該方法能夠根據(jù)生成推理答案的置信度動態(tài)調(diào)節(jié)采樣溫度,以實現(xiàn)推理路徑多樣性與答案分布收斂速度的平衡。

隨后,北京理工大學(xué)與小紅書的研究者在數(shù)學(xué)推理任務(wù)上對該方法進(jìn)行了大規(guī)模評估,涵蓋多種主流基座模型。實驗結(jié)果顯示,與固定多樣性參數(shù)的對照方法相比,置信度驅(qū)動的動態(tài)采樣策略在有限樣本環(huán)境下具有更優(yōu)的性能表現(xiàn),無需額外訓(xùn)練數(shù)據(jù)或模塊支撐,即可實現(xiàn)推理效果的穩(wěn)步提升。這一現(xiàn)象揭示了SC方法實質(zhì)上是動態(tài)采樣機制與漸進(jìn)演化答案分布之間的同步優(yōu)化問題,為進(jìn)一步理論分析與實踐應(yīng)用奠定了基礎(chǔ)。

論文標(biāo)題:

Revisiting Self-Consistency from Dynamic Distributional Alignment Perspective on Answer Aggregation

論文地址:

https://www.arxiv.org/abs/2502.19830

01、背景

自洽性方法(Self-Consistency, SC)是一種經(jīng)過長期驗證的解碼策略,通過對同一輸入進(jìn)行多次采樣并以多數(shù)投票方式聚合結(jié)果,從而提升模型性能。大量研究表明,SC在多種任務(wù)中均能顯著增強語言模型的推理能力,但其潛在機制迄今尚未得到深入探究。

近期研究表明,通過對多條推理軌跡進(jìn)行多數(shù)投票,SC方法能夠有效避免陷入局部最優(yōu)并減少單次采樣所引入的高方差,從而使聚合結(jié)果逐步逼近模型的潛在真實答案分布(參見圖1(a))。基于此見解,本文首次從形式化層面給出SC方法的收斂性定義,并設(shè)計了對應(yīng)的采樣過程收斂判據(jù)。系統(tǒng)性分析表明,傳統(tǒng)觀點中對“固定真實分布”的假設(shè)在實際解碼過程中并不成立,而解碼參數(shù)(如溫度設(shè)置)對SC的收斂行為具有關(guān)鍵影響(參見圖1(b))。


基于上述發(fā)現(xiàn),本文圍繞以下兩個關(guān)鍵問題展開研究:

  1. 在可用樣本數(shù)量受限的情況下,不同采樣多樣性策略如何影響采樣分布與潛在真實答案分布之間的對齊?
  2. 能否通過主動校準(zhǔn)解碼參數(shù)以加速并穩(wěn)健收斂,而非依賴漸近收斂?

為此,我們對溫度參數(shù)在SC過程中的作用進(jìn)行了深入探討。

研究結(jié)果表明,溫度不僅調(diào)節(jié)采樣隨機性,而且直接塑造潛在答案分布。當(dāng)樣本數(shù)量趨于無窮大時,較高溫度有助于獲得更理想的真實分布;然而在樣本有限的情況下,最佳采樣溫度會隨樣本量減少而降低。該現(xiàn)象揭示了一種權(quán)衡:低多樣性采樣可迅速集中投票結(jié)果并抑制噪聲,但存在放大模型固有偏差的風(fēng)險;高多樣性采樣雖然分散結(jié)果、需更多樣本以實現(xiàn)穩(wěn)定,卻有助于探索潛在的更優(yōu)分布,從而在總體上提升SC方法的性能。

言而總之,我們的分析表明,SC的有效性取決于采樣分布的置信度與真實答案分布的內(nèi)在不確定性之間的動態(tài)對齊——這種關(guān)系受樣本數(shù)量的影響。理想情況下,應(yīng)該控制采樣分布,以便多數(shù)投票結(jié)果與真實分布緊密匹配,并在此基礎(chǔ)上探索更優(yōu)的真實分布。

基于以上分析,我們提出了一種置信度驅(qū)動的采樣溫度優(yōu)化機制,該機制根據(jù)答案分布計算實時置信度從而動態(tài)調(diào)整溫度。當(dāng)早期樣本在前兩次投票答案之間僅顯示出很小的概率差距時,我們的機制銳化采樣分布,以更好地將其與真實分布對齊。相反,當(dāng)置信度較高時,升高溫度以探索潛在的更優(yōu)分布。我們推導(dǎo)出一個置信度閾值來確定溫度調(diào)整的方向,為這一過程提供理論支持。這種閉環(huán)控制動態(tài)地將采樣分布與潛在答案分布對齊,確保高效收斂,同時積極追求更好的分布。

02、SC原理分析

2.1 分布視角下的SC有效性分析

從概率的角度來看,SC可以看作是真實答案分布p(y | x) 的蒙特卡羅估計。隨著樣本數(shù)量的增加,樣本形成的經(jīng)驗分布近似于真實分布,最高頻的答案與真實分布下采樣概率最高的答案一致:

隨著采樣樣本數(shù)量的增加,聚合估計的可靠性顯著提升,多數(shù)投票機制亦逐步收斂于模型的潛在真實答案。為驗證該見解,我們考察了top-1答案匹配率隨樣本規(guī)模變化的曲線特性。真實top-1答案,指通過從大規(guī)模采樣結(jié)果中構(gòu)造的近似真實分布中抽取所得的最優(yōu)答案。

圖2 的結(jié)果表明隨著樣本量的增加,top-1 答案匹配率逐漸接近 100%,準(zhǔn)確率不斷提高。這給予我們一個見解:SC性能的提高源于采樣分布中的top-1 答案逐漸與真實分布對齊的事實,最終達(dá)到了真實分布水平的準(zhǔn)確性。

2.2 SC收斂性分析

根據(jù)以上觀察和見解,由于真實分布的準(zhǔn)確性是固定的,因此保證SC的答案收斂。為了進(jìn)一步研究,我們根據(jù)柯西收斂準(zhǔn)則提供以下定義:


基于定義2.1,我們證明了SC在數(shù)據(jù)集上準(zhǔn)確率也收斂:


最后,我們給出在在實際采樣過程中SC的收斂判別準(zhǔn)則:

圖3 描述了各種模型在GSM8K數(shù)據(jù)集上的收斂行為,準(zhǔn)確率曲線根據(jù)定義2.3 繪制到收斂點,從中我們可以得到:

  • 收斂速度與準(zhǔn)確率呈正相關(guān)。
  • 收斂速度與溫度成反比。
  • 最終收斂的準(zhǔn)確率在不同的溫度設(shè)置下是不同的。

基于它們,我們得出了:采樣多樣性會影響真實分布,影響SC的收斂效果和收斂速度。

2.3 多樣性解碼策略對SC的影響

為了更深入地了解多樣性對SC的影響,我們研究了準(zhǔn)確率隨溫度變化的關(guān)系。

收斂條件下

圖4 展示了在采樣至SC收斂情況下溫度和準(zhǔn)確率的變化曲線,這結(jié)果表明隨著溫度升高,單個樣本的準(zhǔn)確率呈下降趨勢,收斂后SC的準(zhǔn)確率呈上升趨勢(最佳點通常接近1.0)。集成學(xué)習(xí)中的分歧消解定理提供了一定的解釋性,這表明集成的整體性能是由單個模型的準(zhǔn)確性與其多樣性之間的權(quán)衡決定的。

我們獲得了結(jié)論:當(dāng)樣本量足夠時,應(yīng)該增加溫度以更好地探索具有更高準(zhǔn)確度的真實分布。

有限采樣


圖5 表示在有限采樣的情況下溫度和準(zhǔn)確率的熱力圖。我們發(fā)現(xiàn):當(dāng)樣本量有限時,隨著樣本量的減小,最佳溫度逐漸向較低的值移動。根據(jù)以上分析,我們得出:樣本量決定了能可靠建模最大top-1 的置信水平。置信度較低的真實分布需要更大的數(shù)據(jù)量,以確保采樣的top-1 答案與收斂結(jié)果一致。

根據(jù)不同情況下的溫度和準(zhǔn)確率分析,我們推導(dǎo)出:SC的有效性取決于采樣分布的置信度與真實答案分布的內(nèi)在不確定性的動態(tài)對齊。

03、方法

部分的分析,我們提出了自適應(yīng)置信分布對齊機制,以克服傳統(tǒng)SC在固定樣本大小與溫度下的局限性。具體而言,我們根據(jù)實時計算的樣本分布置信度動態(tài)調(diào)整采樣溫度:當(dāng)置信度偏低且樣本量有限時,降低溫度以提高聚合決策的穩(wěn)定性;而在置信度較高的情形下,適當(dāng)升高溫度以促進(jìn)對潛在真實分布的探索。該機制通過主動收斂和探索的平衡,使SC在有限樣本條件下亦能迅速逼近真實答案,同時在必要時保持多樣性以發(fā)掘更優(yōu)解,從而顯著提升整體準(zhǔn)確性與魯棒性。

3.1 多樣性控制策略

動態(tài)溫度調(diào)整

我們引入了一種置信度驅(qū)動的多樣性優(yōu)化機制,將采樣分布與潛在答案分布動態(tài)對齊。FSD被用作置信度度量來量化Top-1答案和Top-2答案之間的差距。形式上,在解碼步驟t,有:

為了確保穩(wěn)定的優(yōu)化,我們設(shè)計了一個保守的調(diào)整規(guī)則,其不變區(qū)間在置信閾值 τ 附近。溫度 T 通過FSD進(jìn)行更新:

其中 ε 是穩(wěn)定性余量,為簡單起見,我們將其設(shè)置為 0.05。溫度 T 被限制在 [0.1, 1.0] 的區(qū)間以避免極值。

階段采樣策略

為了平衡探索和效率,我們設(shè)計了三階段抽樣規(guī)則:

  • 探索階段:以預(yù)設(shè) 收集少量樣本 作為估計初始 的窗口。
  • 自適應(yīng)階段:通過等式7 調(diào)整,然后生成(N : 總采樣數(shù))個樣本。
  • 利用階段:通過等式7 獲得最終并生成剩余的個樣本。

階段性方法逐漸從廣泛的探索轉(zhuǎn)向集中利用。最后,準(zhǔn)確度由 N 個樣本總數(shù)的多數(shù)投票計算。

3.2 理論推導(dǎo)

為了確保 FSD 閾值 τ 的合理有效選擇,我們構(gòu)建了一個單邊 z 檢驗進(jìn)行分析。該測試采用零假設(shè)如下:

H0:當(dāng)前采樣的top-1 答案不是無限采樣下給定問題的真實答案。

為了簡化這個問題,我們假設(shè)只有當(dāng)前的top-2 答案可能會在無限采樣下成為真實答案。因此,我們很自然地關(guān)注FSD 和置信度之間的關(guān)系。因此,這個單邊 z 檢驗可以描述為:

假設(shè)當(dāng)前樣本量接近無窮大,并且根據(jù)多項式分布和 Jensen 不等式,我們得到檢驗量z的下界為:

當(dāng)時,其對應(yīng)的值約為 0.05。在此情形下,我們可以以較高置信度認(rèn)為模型輸出的最可能答案即為真實答案分布下的 top-1 答案。因此,可將 FSD 閾值設(shè)定為:


04、實驗

4.1 主實驗

實驗設(shè)置

  • 數(shù)據(jù)集及模型:我們在兩個廣泛使用的數(shù)學(xué)推理基準(zhǔn)上評估我們的方法:GSM8K和 MATH。實驗使用多個不同類別的基座模型來評估方法的效果和泛化性,包括Qwen、Llama、Mistral、DeepSeek、Gemma 和 Phi。
  • 參數(shù)設(shè)置:為了系統(tǒng)地比較動態(tài)和靜態(tài)溫度策略,我們測試了初始溫度 T0 ∈ {0.1, 0.2,.., 1.0},采樣數(shù) N ∈ {10, 20, 40}。
  • 評估指標(biāo):為了直觀地有效地評估方法之間的差異,我們計算了所有溫度下固定溫度采樣和動態(tài)溫度采樣的平均準(zhǔn)確率和最大準(zhǔn)確率。

動態(tài)溫度采樣減輕了固定溫度采樣帶來的性能損失。我們發(fā)現(xiàn),動態(tài)溫度采樣在不同溫度下的平均準(zhǔn)確率優(yōu)于固定溫度采樣。這表明我們的方法不受溫度范圍的限制,可以識別對不同溫度下SC性能更有效的樣本。對于最優(yōu)溫度而言,這種方法減輕了樣本在單個固定溫度下無效采樣引起的性能損失。

對于不同的樣本,動態(tài)溫度采樣為每個樣本搜索更合適的溫度。同樣,我們觀察到動態(tài)溫度采樣在最大準(zhǔn)確率方面也提供了一定的改進(jìn)。這可以歸因于不同的樣品需要不同的溫度區(qū)間。固定溫度采樣只能在整體上追求期望準(zhǔn)確率,而動態(tài)溫度采樣自動搜索每個單獨樣本的最佳溫度,最大限度地優(yōu)化SC在各個初始溫度下的性能。

4.2 分析實驗

我們對模型在不同溫度下的準(zhǔn)確性進(jìn)行了詳細(xì)的分析。圖 7 顯示了 Qwen2.5-Math-7B 模型的準(zhǔn)確度和溫度曲線。我們觀察到,在采樣大小為 20 和 40 的情況下,低溫范圍 (0.1-0.4) 和高溫范圍 (0.7-1.0) 都表現(xiàn)出顯著的改進(jìn)。這表明動態(tài)溫度采樣產(chǎn)生更穩(wěn)健的結(jié)果。

溫度調(diào)整方向分析

考慮樣本層級,我們首先分析了在整個動態(tài)溫度采樣過程中經(jīng)歷溫度增加、減少或保持不變的樣本的比例,如圖8所示。我們觀察到,在低溫范圍內(nèi),至少80%的樣本經(jīng)歷了溫度升高。這一觀察結(jié)果與我們從數(shù)據(jù)集層面考慮得出的假設(shè)一致,這表明升高溫度往往會導(dǎo)致更高的預(yù)期準(zhǔn)確度。隨著初始溫度升高,溫度向上調(diào)整的樣本比例逐漸減小,表明對于當(dāng)前采樣的某些樣本,過高的溫度不足以自信地選擇正確的答案。因此,降低溫度對于提高置信度是必要的。此外,我們注意到,在采樣數(shù)擴(kuò)大的情況下,樣本溫度上升的比例更高,這與我們在第 2 部分的分析是一致的。

樣本在最佳溫度范圍的比例

我們分析了最終到達(dá)FSD閾值范圍樣本的比例。我們認(rèn)為到達(dá)FSD閾值范圍是樣本處于最佳溫度范圍內(nèi)的標(biāo)志。如圖9 所示,與固定溫度采樣相比,動態(tài)溫度采樣使得樣本進(jìn)入FSD閾值范圍的比例更高。這表明我們的方法可以更好地動態(tài)對齊數(shù)據(jù)集中更大范圍的樣本。

05、結(jié)語

本工作通過動態(tài)分布對齊的視角重新審視SC,打破被動收斂到固定答案分布的傳統(tǒng)觀點。我們證明了基于溫度的解碼塑造了采樣行為和潛在答案分布,揭示了多樣性驅(qū)動的探索和有限樣本收斂之間的權(quán)衡。通過引入置信度感知機制,該機制根據(jù)與分布的實時對齊動態(tài)調(diào)整溫度,彌合這一差距,從而實現(xiàn)動態(tài)采樣和演化答案分布之間的有效同步。

實驗結(jié)果表明,這種方法優(yōu)于靜態(tài)策略,在沒有外部資源介入的情況下實現(xiàn)了穩(wěn)健的性能改進(jìn)。我們的研究結(jié)果將SC定位為有限樣本下的主動對齊挑戰(zhàn),為推理任務(wù)中的自適應(yīng)聚合框架開辟了新途徑。

06、作者簡介

李易為

現(xiàn)博士就讀于北京理工大學(xué),小紅書社區(qū)搜索組實習(xí)生。在 NeurIPS、ICLR、ACL、NAACL、AAAI 等機器學(xué)習(xí)、自然語言處理領(lǐng)域頂級會議上發(fā)表數(shù)篇一作論文,主要研究方向為大語言模型、開放域?qū)υ捝傻取?/span>

張驥

現(xiàn)本科就讀于北京理工大學(xué),小紅書社區(qū)搜索組實習(xí)生。在ACL發(fā)表一篇論文。主要研究方向為大語言模型推理。

馮少雄

現(xiàn)負(fù)責(zé)小紅書社區(qū)搜索機制和垂類。曾負(fù)責(zé)個性化和長冷向量召回、大模型滿意度標(biāo)注/答案生成(基于后驗行為RLHF)。兼職北京理工大學(xué)校外博導(dǎo),在 ICLR、NeurIPS、AAAI、ACL、EMNLP 等機器學(xué)習(xí)、自然語言處理領(lǐng)域頂級會議上發(fā)表多篇論文,主要研究方向大模型推理/評測/蒸餾、生成式檢索、開放域?qū)υ捝伞?/span>

責(zé)任編輯:龐桂玉 來源: 小紅書技術(shù)REDtech
相關(guān)推薦

2023-11-23 07:41:54

因果推斷大模型

2025-06-05 11:49:21

AI模型數(shù)據(jù)

2025-06-18 08:53:00

AI模型語音

2025-03-03 07:15:00

模型訓(xùn)練AI

2025-06-03 08:35:00

大模型技術(shù)AI

2024-06-14 09:02:49

2025-05-22 09:07:00

2024-10-23 08:45:07

ACLABACRBAC

2024-10-17 09:14:24

RBAC模型管理

2025-06-16 14:44:14

模型AILLM

2024-12-24 13:55:39

2025-04-03 08:00:00

開源大語言模型DAPO

2023-10-07 13:17:44

2025-05-28 01:50:00

2024-09-18 09:50:00

大模型AI

2025-02-27 07:48:25

2024-08-07 09:30:00

2025-02-17 10:13:27

2025-06-26 08:42:00

模型安全AI

2010-06-01 09:20:45

jQuery
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本一区二区视频 | 91日韩 | 国产美女自拍视频 | 国产一区二区三区四区在线观看 | 久久国产综合 | 欧美日韩在线一区二区三区 | 亚洲综合无码一区二区 | 国产亚洲一区二区三区 | 性一区| 久热精品在线 | 97起碰| 在线一区 | 孕妇一级毛片 | 亚洲成人a v | 日韩毛片免费视频 | 国产不卡在线播放 | 精品少妇一区二区三区日产乱码 | 不卡视频一区 | 国产欧美精品一区二区色综合朱莉 | 久久久综合色 | 国产高清视频在线 | 国产精产国品一二三产区视频 | 天堂va在线| a精品视频| 国产ts人妖一区二区三区 | 亚洲精品一区二区三区蜜桃久 | 91天堂网| 欧美日韩综合一区 | 免费黄色网址视频 | 久久亚洲欧美日韩精品专区 | 免费九九视频 | 嫩草视频在线免费观看 | 色婷婷影院 | 亚洲欧美中文日韩在线v日本 | 久久精品视频网站 | 免费观看羞羞视频网站 | 精品在线一区二区三区 | 一级黄色生活视频 | 国产精品1区2区 | av手机在线| www.99热.com |