ICML 2025 | 生成式視角重塑監(jiān)督學習!標簽不只是答案,更是學習指南
生成式視角可以對監(jiān)督學習重新思考乃至重新定義!
想象你在教一個學生解數(shù)學題——你會直接讓他交卷對答案,還是會讓他參考完整答案來理解解題思路?
如今,一種全新的監(jiān)督學習范式正受到關注:標簽不應只是用于對照回答的標準答案,更可能成為學習過程中的輔助參考。
受生成式一致性模型的啟發(fā),來自上海交大、SII、MIT、港中文深圳等機構的研究團隊在ICML 2025最新提出預測一致性學習(PCL,Predictive Consistency Learning)。
PCL通過擴散模型的擴散過程消減標簽的信息,將噪聲標簽(Noised Labels)引入模型的輸入,使得模型在數(shù)據(jù)輸入和噪聲標簽的共同參照下預測完整標簽,實現(xiàn)標簽信息的復用和價值挖掘。
訓練過程概覽
傳統(tǒng)監(jiān)督學習中,輸入通過神經(jīng)網(wǎng)絡預測
,通過對比和標準答案
之間的關系,來計算損失和反向傳播更新模型,對應損失函數(shù)
其中為具體損失函數(shù),
為神經(jīng)網(wǎng)絡函數(shù)。受生成一致性模型中一致性映射思想的啟發(fā),PCL對應一種全新的監(jiān)督學習范式,旨在通過漸進式分解標簽信息來更好地捕捉復雜標簽的完整表征,使得模型在部分標簽信息的提示下實現(xiàn)完整標簽信息的預測。
與傳統(tǒng)方法不同,PCL學習框架將完整標簽的學習過程分解為逐步逼近的漸進式任務:模型會接收一個含有部分標簽信息的額外輸入作為提示,首先學習捕捉互補的部分標簽信息,隨后逐步逼近完整標簽。
為了系統(tǒng)化地規(guī)劃標簽學習過程,研究人員借鑒了擴散模型和一致性模型中的加噪過程,通過生成帶噪標簽作為額外的輸入提示,使模型能夠在學習帶噪部分的同時補充完整信息。
具體而言,PCL在訓練時:以輸入數(shù)據(jù)為條件,將不同噪聲水平的帶噪標簽映射回真實標簽,噪聲程度由時間步控制;約束不同噪聲時間步的預測結(jié)果均一致地逼近目標標簽。
模型每次采樣兩個不同的時間步,要求模型在不同時間步的提示下盡可能精準還原標簽,同時預測的結(jié)果盡可能保持一致。
通過這種跨噪聲水平的一致性約束,模型能夠?qū)W習從完全噪聲到精確標簽的不同層級的標簽信息,從而構建更具表達力的映射關系。
預測一致性機制的作用在于,將低噪聲條件下的預測精度傳遞至高噪聲條件,同時約束模型在不同噪聲水平下表征的不變性,從而減小對于標簽提示的過度依賴,服務于測試過程。最終損失函數(shù)形式為:
其中模型接收輸入,兩個不同時間步的噪聲標簽
和相應的時間步
,模型在兩個不同噪聲標簽的提示下完成預測,在預測結(jié)果逼近噪聲標簽的同時,額外約束兩個預測結(jié)果的一致性。
分別控制預測精度loss和預測一致性loss的權重。
標簽噪聲過程
離散標簽的噪聲過程:對于多維分類標簽,其中
表示類別數(shù),
表示維度,研究人員遵循離散擴散模型將噪聲過程建模為在每個時間步
引入類別噪聲到標簽中。
他們將標簽表示為,它是
個獨熱編碼向量的拼接。噪聲可以理解為在每個維度的不同類別之間進行轉(zhuǎn)換。從初始點
開始,噪聲過程定義為:
其中是在
個獨熱向量上的分類分布,概率由
給出,
是轉(zhuǎn)移矩陣,決定了在時間步
引入的噪聲,對應的標簽類別以概率
轉(zhuǎn)移到任何其他類別。
隨著時間的推移,當接近最終時間步
時,標簽會收斂到
個類別的均勻分布。由于噪聲矩陣可以事先計算,因此跨步噪聲計算代價很低。
連續(xù)標簽的噪聲過程:對于多維連續(xù)標簽,其中
表示維度,研究人員遵循高斯擴散模型將擴散過程建模為在每個時間步向標簽引入高斯噪聲。在每個時間步
,高斯噪聲被應用于標簽,逐步將其推向一個噪聲分布。噪聲過程定義為:
其中是均值為
,協(xié)方差為
的高斯分布,
控制在時間步
上添加噪聲的方差。隨著時間的推移,當
接近最終時間步
時,標簽會收斂到一個以零為中心的高斯分布。同樣噪聲函數(shù)可以事先計算,因此跨步噪聲計算代價很低。
嵌入空間的噪聲過程:在標簽過于復雜,無法直接表示為分類或連續(xù)值,或者類別數(shù)過大時,PCL直接向標簽的潛在嵌入空間引入高斯噪聲,這種方式與連續(xù)標簽的噪聲過程一致。
測試過程概覽
在訓練完成后的推理階段,可以通過從隨機噪聲分布采樣標簽作為提示信息,并進行單次前向傳播來進行高效預測。
由于不包含任何信息量,這個推理過程實際上和傳統(tǒng)監(jiān)督學習的直接預測是一致的。然而在訓練階段的改進使得PCL模型具有更好的預測能力,即使不依賴任何標簽提示已經(jīng)能夠超越傳統(tǒng)監(jiān)督學習的精度。
在訓練過程中,當較小時,直接預測精度往往較高,因為標簽提示包含更多的信息。目標是通過訓練將這種高精度逐步轉(zhuǎn)移到較大的
值,從而提升整體模型性能。
在理想情況下,當一致性損失趨于零時,可以通過一步推理獲得最優(yōu)結(jié)果,但實際上,通過逐步將從
降至0可以規(guī)劃不同層級標簽信息的預測,帶來精度的提升。
為了實現(xiàn)這種提升,可以采用多步推理策略,通過對上一步標簽重新引入噪聲作為下一步預測的標簽提示并且交替執(zhí)行預測,使得模型能夠在多個推理步驟中逐步細化其輸出,并利用早期預測中嵌入的越來越豐富的提示信息。
給定一系列時間點,在每一步
,上一步預測
會通過噪聲函數(shù)被擾動到狀態(tài)
作為下一步預測的噪聲提示信息,從而修正
預測。
噪聲水平隨著每一步的進行而降低,即。然后,模型通過應用
對標簽進行更精確的預測。這個過程會在接下來的步驟中重復進行,每一步新的標簽提示信息都包含了從前一步獲取的更精確的信息。
這使得模型能夠逐步恢復的全部信息,通過將可能的近似預測作為標簽提示,并利用逐步增益的信息來進行最終預測。
信息論視角
從理論角度出發(fā),在標準監(jiān)督學習場景下,模型的主要目標是捕捉輸入和標簽
之間的互信息。
通常,由于輸入的信息量常常遠遠大于標簽
,模型希望通過學習一個壓縮的特征表示來最大化
并最小化
,其中
是從
提取的特征表示。默認情況下,從
到
之間的映射是直接且容易捕捉的。
然而,隨著任務的復雜性增加,標簽的信息也變得越來越復雜,例如高維度、復雜的內(nèi)部結(jié)構等。這使得從
到
之間的映射變得更加復雜,模型需要應對更加困難的學習問題。
為了更有效地建模,相較于一次性學習
所有的信息,PCL的設計實則提出了一種結(jié)構化的學習過程,逐步捕捉這些信息。
為了將標簽信息分解為一個更為漸進的學習過程,PCL引入了一個附加的噪聲標簽,用于在每次迭代中調(diào)節(jié)學習的標簽信息量。通過引入
,原始的互信息
可以分解為如下形式:
由于是由
推導而來的,當
已知時,
對
并沒有額外的信息,因此冗余項
,公式簡化為:
這一分解揭示了兩個關鍵成分,其中第一個項捕捉了在給定
的條件下可以學習的
的增量信息。該項作為
的下界,且它們之間的差距可以通過
的信息量進行控制。
通過最大化,模型逐步學習捕捉
的完整信息內(nèi)容。具體而言,當
時,
提供的信息極少,迫使模型完全捕捉
;而當
時,
逼近
,允許模型專注于優(yōu)化標簽的細節(jié)。
在訓練過程中,通過隨機采樣一批值,模型能夠同時學習標簽的不同方面。最初,模型期望能夠輕松捕捉標簽的部分細節(jié),通過迭代訓練,模型逐步積累
的完整信息內(nèi)容。
在實現(xiàn)方面,模型暴露于帶噪聲的。模型的輸入包括
和
,其中
作為條件輸入。盡管引入
作為輔助輸入有助于學習,但最終目標是使模型盡可能少地依賴
來進行預測。
形式上,目標是最小化噪聲條件依賴,該項衡量模型預測在多大程度上依賴于噪聲標簽
。理想情況下,這一項應該為零,表明在給定
和模型參數(shù)
的條件下,模型的預測與
無關。數(shù)學上,它可以通過以下公式進行度量:
該項對應預測一致性的約束,確保對于所有的和
,都有
。這種正則化確保了模型的預測在不同噪聲水平下保持一致,從而減少了對
的依賴,鼓勵
盡可能編碼所有必要的信息,以實現(xiàn)準確的預測。
實驗結(jié)果
由于PCL作為一種新穎的訓練范式被提出,因此主要的基準對比是傳統(tǒng)的監(jiān)督學習。研究者在不同模態(tài)的經(jīng)典代表性模型骨干網(wǎng)絡上進行比較,以展示PCL的通用適用性。這些任務包括視覺模態(tài)的語義分割、圖模態(tài)的N體問題仿真和語言模態(tài)的next-token prediction監(jiān)督微調(diào)。
在圖像語義分割任務中,上圖展示了PCL的預測過程。模型首先在完全隨機噪聲的提示下進行預測,然后將上一步的標簽預測加噪到更小的噪聲程度,作為下一步的標簽提示。
通過這種遞進式的噪聲處理和多步推理,最終得到更加精確的預測結(jié)果。與傳統(tǒng)監(jiān)督學習(SL)進行對比,PCL在單步預測時就已經(jīng)超過了SL,而隨著預測步驟的增多,預測質(zhì)量持續(xù)提升。
上圖展示了在給定標簽提示的情況下,不同時間步設置對模型預測錯誤范圍的影響。可以發(fā)現(xiàn),設置較大的時間步傾向于鼓勵模型改進更廣泛的結(jié)構關系,而設置較小的時間步則鼓勵模型專注于更精細的細節(jié),例如物體的邊界。
這一現(xiàn)象表明,模型通過引入時間步的設計,能夠在標簽預測過程中分層次地學習不同粒度的信息,從全局結(jié)構到局部細節(jié)。
上表展示了在語義分割任務上,PCL與SL的定量表現(xiàn)對比,進一步驗證了PCL在提升預測精度方面的優(yōu)勢。
在圖模態(tài)的預測任務中,上圖展示了不同學習階段下模型在預測階段的推理步數(shù)對預測質(zhì)量的影響。在訓練尚不完全時,推理步數(shù)越多,預測精度越高。
然而,隨著訓練逐漸完成,觀察到隨著推理步數(shù)的增加,預測誤差會持續(xù)下降,但在達到某個臨界點后,誤差可能會反彈上升。
這種現(xiàn)象源于訓練與推理階段的差異:在訓練階段,模型始終以真實標簽的噪聲擾動版本作為輸入,而在推理階段,模型依賴于自身的中間預測結(jié)果,這些預測可能包含誤差,并在多步迭代中逐漸累積。
由此產(chǎn)生了一個權衡問題:更多的推理步數(shù)有助于捕捉更精細的預測細節(jié),但也增加了誤差累積的風險。為了優(yōu)化這一平衡,研究人員通過驗證集確定最佳的推理步數(shù),并在測試階段引入早停機制,在誤差開始上升之前終止推理流程。
值得注意的是,單步預測的精度相比于傳統(tǒng)監(jiān)督學習已經(jīng)有了顯著提升。
上表展示了PCL相較于SL在預測精度上的顯著提升,進一步驗證了PCL在處理復雜預測任務中的優(yōu)勢。
在語言模態(tài)的next-token prediction監(jiān)督微調(diào)任務中,研究人員對比了使用SL和PCL微調(diào)LLaMa2-7B模型的效果,結(jié)果表明,PCL相較于SL在性能上具有優(yōu)勢。
由于噪聲過程尚未進行定制化,并且next token作為標簽信息的提示量相對單薄,當前的框架仍然有較大的提升空間。
未來的研究可以進一步優(yōu)化噪聲過程并增強標簽信息的豐富度,從而進一步提升PCL在語言任務中的表現(xiàn)。
論文鏈接:https://openreview.net/pdf?id=FO2fu3daSL
代碼鏈接:https://github.com/Thinklab-SJTU/predictive-consistency-learning