「字少信息量大」,Salesforce、MIT 研究者教 GPT-4「改稿」,數據集已開源
近年來,自動摘要技術取得了長足的進步,這主要歸功于范式的轉變 —— 從在標注數據集上進行有監督微調轉變為使用大語言模型(LLM)進行零樣本 prompt,例如 GPT-4。不需要額外的訓練,細致的 prompt 就能實現對摘要長度、主題、風格等方面特征的精細控制。
但一個方面常常被忽視:摘要的信息密度。從理論上講,作為對另一個文本的壓縮,摘要應該比源文件更密集,也就是包含更多的信息。考慮到 LLM 解碼的高延遲,用更少的字數涵蓋更多的信息非常重要,尤其是對于實時應用而言。
然而,信息量密度是一個開放式的問題:如果摘要包含的細節不足,那么相當于沒有信息量;如果包含的信息過多,又不增加總長度,就會變得難以理解。要在固定的 token 預算內傳遞更多信息,就需要將抽象、壓縮、融合三者結合起來。
在最近的一項研究中,來自 Salesforce、MIT 等機構的研究者試圖通過征求人類對 GPT-4 生成的一組密度越來越高的摘要的偏好來確定這一限制。對于提升 GPT-4 等大語言模型的「表達能力」,這一方法提供了很多啟發。
論文鏈接:https://arxiv.org/pdf/2309.04269.pdf
數據集地址:https://huggingface.co/datasets/griffin/chain_of_density
具體來說,他們將每個 token 的平均實體數量作為密度的代表,生成了一個初始的、實體稀少的摘要,然后在不增加總長度(總長度為 5 倍)的情況下,反復識別并融合前一個摘要中缺失的 1-3 個實體,每個摘要的實體與 token 比例都高于前一個摘要。根據人類的偏好數據,作者最終確定,人類更喜歡幾乎與人類編寫的摘要一樣密集的摘要,而且比普通 GPT-4 prompt 生成的摘要更密集。
總體來說,該研究的貢獻包括:
- 開發一種基于 prompt 的迭代方法 (CoD),使得摘要的實體密度越來越高;
- 對 CNN/《每日郵報》文章中越來越密集的摘要進行人工和自動評估,以更好地了解信息量(傾向于更多實體)和清晰度(傾向于更少的實體)之間的權衡;
- 開源了 GPT-4 摘要、注釋和一組 5000 篇未注釋的 CoD 摘要,用于評估或提煉。
什么是 CoD
作者制定了一個單一的密度鏈(CoD)Prompt,即生成一個初始摘要,并使其實體密度不斷增加。具體來說,在一個固定的交互次數中,源文本中一組獨特的突出實體被識別出來,并在不增加長度的情況下融合到之前的摘要中。
圖 2 顯示了 Prompt 和輸出示例。作者沒有規定實體的類型,而是將缺失實體定義為:
- 相關:與主要故事相關;
- 具體:描述性的但簡潔(5 個字或更少);
- 新穎:未出現在之前的摘要中;
- 忠實:存在于文章中;
- 任何地方:位于文章的任何地方。
作者從 CNN/DailyMail 摘要測試集中隨機抽取了 100 篇文章,為其生成 CoD 摘要。為便于參考,他們將 CoD 摘要統計數據與人類撰寫的要點式參考摘要以及 GPT-4 在普通 Prompt 下生成的摘要進行比較:「寫一篇非常簡短的文章摘要。請勿超過 70 個字?!?/span>
統計情況
在研究中,作者從直接統計數據和間接統計數據兩方面進行了總結。直接統計數據(token、實體、實體密度)由 CoD 直接控制,而間接統計數據則是密集化的預期副產品。
直接統計數據。如表 1 所示,由于從最初冗長的摘要中刪除了不必要的詞語,第二步平均減少了 5 個 token(從 72 到 67)的長度。實體密度從 0.089 開始,最初低于人類和 Vanilla GPT-4(0.151 和 0.122),經過 5 步密集化后,最終上升到 0.167。
間接統計。抽象度應該會隨著每一步 CoD 的進行而增加,因為每增加一個實體,摘要就會被反復改寫以騰出空間。作者用提取密度來衡量抽象性:提取片段的平均平方長度 (Grusky et al., 2018)。同樣,隨著實體被添加到固定長度的摘要中,概念融合度也應隨之單調增加。作者用與每個摘要句子對齊的源句子的平均數量來表示融合度。在對齊上,作者使用相對 ROUGE 增益法 (Zhou et al., 2018),,該方法將源句與目標句對齊,直到額外句子的相對 ROUGE 增益不再為正。他們還預計內容分布(Content Distribution),也就是摘要內容所來源的文章中位置,會發生變化。
具體來說,作者預計 CoD 摘要最初會表現出強烈的「引導偏向」(Lead Bias),但隨后會逐漸開始從文章的中間和末尾引入實體。為了測量這一點,他們使用了融合中的對齊結果,并測量了所有對齊源句的平均句子等級。
圖 3 證實了這些假設:抽象性隨著重寫步驟的增加而增加(左側提取密度較低),融合率上升(中圖),摘要開始納入文章中間和末尾的內容(右圖)。有趣的是,與人類撰寫的摘要和基線摘要相比,所有 CoD 摘要都更具抽象性。
結果
為了更好地理解 CoD 摘要的 tradeoff,作者開展了一項基于偏好的人類研究,并使用 GPT-4 進行了基于評級的評估。
人類偏好。具體來說,對于同樣的 100 篇文章(5 個 step *100 = 總共 500 篇摘要),作者向論文的前四位作者隨機展示了經過「重新創作」的 CoD 摘要以及文章。根據 Stiennon et al. (2020) 對「好摘要」的定義,每位注釋者都給出了自己最喜歡的摘要。表 2 報告了各注釋者在 CoD 階段的第一名得票情況,以及各注釋者的匯總情況。總的來說,61% 的第一名摘要(23.0+22.5+15.5)涉及≥3 個致密化步驟。首選 CoD 步數的中位數位于中間(3),預期步數為 3.06。
根據 Step 3 摘要的平均密度,可以大致推斷出所有 CoD 候選者的首選實體密度為 ~ 0.15。從表 1 中可以看出,這一密度與人類編寫的摘要(0.151)相一致,但明顯高于用普通 GPT-4 Prompt 編寫的摘要(0.122)。
自動度量。作為人工評估的補充(如下),作者用 GPT-4 從 5 個維度對 CoD 摘要進行評分(1-5 分):信息量、質量、連貫性、可歸屬性和整體性。如表 3 所示,密集度與信息量相關,但有一個限度,在步驟 4(4.74)時得分達到頂峰。
從各維度的平均得分來看,CoD 的第一個和最后一個步驟得分最低,而中間三個步驟得分接近(分別為 4.78、4.77 和 4.76)。
定性分析。摘要的連貫性 / 可讀性與信息量之間存在著明顯的 trade-off。圖 4 中展示了兩個 CoD 步驟:一個步驟的摘要因更多細節而得到改善,另一個步驟的摘要則受到損害。平均而言,中間 CoD 摘要最能實現這種平衡,但這種 tradeoff 仍需在今后的工作中去精確定義和量化。
更多論文細節,可參考原論文。