長文本有了專屬困惑度!北大、MIT、阿里推出LongPPL新指標
隨著大模型在長文本處理任務中的應用日益廣泛,如何客觀且精準地評估其長文本能力已成為一個亟待解決的問題。
傳統(tǒng)上,困惑度(Perplexity, PPL)被視為衡量模型語言理解與生成質量的標準指標——困惑度越低,通常意味著模型對下一個詞的預測能力越強。由于長文本可被視為一般文本的擴展,許多研究自然地通過展示模型在長文本上的低困惑度來證明其長文本泛化能力的有效性。但你知道,這個評估方式可能完全錯了嗎?
近期研究發(fā)現(xiàn),困惑度在長文本任務中的適用性存在顯著局限性:某些在困惑度指標上表現(xiàn)優(yōu)異的模型,在實際長文本應用中卻未能達到預期效果。如圖 1(上)所示,在 9 種主流長文本大模型上,困惑度(y 軸)與模型在長文本任務中的真實表現(xiàn)(x 軸)之間的相關性極低。這一反?,F(xiàn)象引出了一個關鍵問題:為何困惑度(PPL)在長文本場景下失效?
圖 1 大模型的困惑度 (PPL) 和長文本困惑度 (LongPPL) 與長文本任務集 LongBench 分數(shù)的相關性。
針對這一問題,北京大學王奕森團隊與 MIT、阿里一道開展了深入研究,探討困惑度在長文本任務中失效的原因,并提出全新指標 LongPPL,更精準反映長文本能力。
通過實驗,他們發(fā)現(xiàn)長文本中不同 token 對長距離上下文信息的依賴程度存在顯著差異。其中,對長上下文信息依賴較強的 token 在評估模型的長文本處理性能時起到關鍵作用,但這類 token 在自然文本中只占少數(shù)。這表明,困惑度失效的原因在于其對所有 token 進行平均計算,無法充分關注這些與長文本能力關系密切的關鍵 token。
為此,他們將困惑度的計算限制在長文本的關鍵 token 上,從而定義出能夠反映模型長文本處理能力的長文本困惑度(LongPPL),該指標表現(xiàn)出與長文本任務性能極高的相關性 (如圖 1(下))。此外,他們還基于這一設計思想提出長文本交叉熵損失(LongCE),顯著提升了模型通過微調增強長文本處理能力的效果。
- 論文題目: What is Wrong with Perplexity for Long-context Language Modeling?
- 論文地址: https://arxiv.org/abs/2410.23771
- 代碼地址: https://github.com/PKU-ML/LongPPL
并非所有 token 都反映模型長文本能力
為探討困惑度在長文本任務中失效的原因,作者首先分析了長文本與短文本在本質上的差異。直觀來看,一段文本中不同詞語對長距離上下文的依賴程度存在顯著差異。例如,在小說中,某個情節(jié)的發(fā)展可能需要與數(shù)章之前埋下的伏筆相呼應,而某些語法上的固定搭配則通常無需依賴較遠的上下文。在長文本場景下,這種依賴程度的差異較短文本更為顯著。
為了量化并驗證這一直觀認識,本文首先考慮了一個簡單的任務場景——LongEval 長文本鍵值對檢索任務(圖 2(a))。在此任務中,模型根據(jù)問題在長上下文中檢索出與給定鍵相匹配的值。本文將問題的標準回答劃分為非答案部分(藍色)和答案部分(橙色)。顯然,非答案部分的生成僅依賴短上下文,即最后的問句內容;而答案部分則需要模型聚焦于完整的長上下文信息。
圖 2 (b)(c) 表明,答案部分的困惑度與模型在此任務中的實際表現(xiàn)高度相關,而非答案部分的困惑度幾乎與任務表現(xiàn)無關。由此可見,依賴長上下文信息的關鍵 token 在評估模型的長文本能力時更加重要。
圖 2(a)LongEval 任務示意圖 (b)(c) LongEval 的答案 / 非答案部分的困惑度與任務表現(xiàn)的相關性。
通過長-短上下文對比在自然文本中定位關鍵 token
在上述結果的啟發(fā)下,一個自然而然的想法是:若將困惑度指標限定于依賴長上下文信息的關鍵 token 上,便可更有效地評估模型處理長文本的能力。
然而,實際應用中存在一個挑戰(zhàn):在自然文本中,無法像 LongEval 基準中那樣明確標注哪些 token 依賴于長距離上下文,因此迫切需要一種指標來自動識別這些關鍵 token。
為了解決這一問題,本文提出了一種長-短上下文對比的方法。具體而言,本文將每個 token x_i 的長上下文 l_i=(x_1,…,x_(i-1)) 截斷成短上下文 s_i=(x_(i-K),…,x_(i-1)),然后計算模型 θ 在長 / 短上下文下生成同一 token 的(對數(shù))概率差距 (Long-short difference, LSD):
這一指標用于量化長上下文對模型預測準確度的提升。圖 3 表明,在 LongEval 任務中,LSD 幾乎能夠完美區(qū)分答案部分和非答案部分。與長上下文信息相關的答案部分 LSD 值普遍大于 2,而與長上下文信息幾乎無關的非答案部分 LSD 值普遍在 - 0.5 到 0.5 之間。這一結果初步驗證了該指標在定位關鍵 token 方面的有效性。
圖 3 LongEval 標準回答中不同類型的 token 按 LSD 分類的分布。
此外,本文發(fā)現(xiàn)模型基于長文本的(對數(shù))生成概率 (Long-context likelihood, LCL) 也有助于定位關鍵 token(在此不做展開):
困惑度無法反映模型長文本能力的原因
進一步,本文在 GovReport 政府報告數(shù)據(jù)集上計算了按 LSD 分類的 token 分布。如圖 4 所示,大部分 token 的 LSD 集中在 [-0.5, 0.5) 范圍內,而 LSD 大于 2 的 token 占比不到 10%。這意味著在自然文本中,只有非常少數(shù)的 token 與長上下文中的信息有強相關性,而絕大部分的 token 只需要依賴短上下文的信息即可生成。
這一結果表明,困惑度在長文本上失效的原因在于其對所有 token 進行平均計算,未能充分關注長文本中這些少數(shù)的關鍵token。
圖 4 GovReport 數(shù)據(jù)集中 token 按 LSD 分類的分布。
長文本困惑度——長文本能力評估指標的改進
基于上述分析,為了克服傳統(tǒng)困惑度指標在長文本場景下的局限性,本文提出了一個新的評估指標——長文本困惑度(LongPPL)。具體設計為:
其核心思想在于通過 LSD 和 LCL 指標,將困惑度的計算限制在長文本的關鍵 token 上,從而聚焦于關鍵 token 的預測質量,以更準確地反映模型的長文本能力。
實驗結果表明,模型在自然文本上的 LongPPL 和長文本任務的實際表現(xiàn)高度相關。如圖 1(下)所示,在 GovReport 數(shù)據(jù)集上,9 個主流長文本大模型的 LongPPL 與在 LongBench 任務集上表現(xiàn)的皮爾遜相關系數(shù)達到了 - 0.96。
長文本交叉熵——長文本訓練方法的優(yōu)化
除了用于評估長文本能力外,本文還基于 LongPPL 的思想提出了一種改進的訓練損失 —— 長文本交叉熵(LongCE):
在提升模型長文本能力的微調過程中,LongCE 會賦予關鍵 token 更高的權重,使得模型在訓練中更加聚焦提升這些關鍵 token 的預測準確性,從而增強模型在長文本任務中的表現(xiàn)。
為了驗證 LongCE 的有效性,研究團隊在 Llama-2-7b 模型的基礎上進行了多組對比實驗。
實驗設計涵蓋了不同的訓練數(shù)據(jù)集(包括 PG-19 書籍數(shù)據(jù)集和 Pile-arxiv 論文數(shù)據(jù)集)以及不同的訓練方法(包括熵感知基調整 EABF 和位置插值 PI,其中 EABF 與 Deepseek-v3 采用的 YaRN 插值方法相似)。實驗評估采用了 LongBench、LongEval 和 RULER 這三個廣泛使用的長文本測試任務集。
實驗結果表明,在各種實驗設定下,采用 LongCE 進行微調的大模型在長文本處理能力上均顯著優(yōu)于使用傳統(tǒng)交叉熵損失函數(shù)進行微調的模型。這表明,不僅是評估,長文本的訓練也應根據(jù)其特點來設計損失函數(shù),而非簡單地沿用短文本場景的損失函數(shù)!
值得注意的是,由于當前主流的長文本泛化方法主要集中于模型架構和參數(shù)的優(yōu)化,而未涉及訓練損失函數(shù)的改進,因此 LongCE 可以與這些方法實現(xiàn)無縫結合,展現(xiàn)出廣闊的應用前景和強大的性能提升潛力。
表 2 使用不同的損失函數(shù)在長文本數(shù)據(jù)上微調的大模型的長文本性能。
更多文章細節(jié),請參考原文。