FABLES:超長文本自動摘要評估 原創
長文本大語言模型(LLMs)的崛起使得生成整本書的摘要成為可能。然而,評估這些摘要的質量,特別是它們與源材料的忠實程度和相關內容的選擇,帶來了重大挑戰。近日,研究人員發表的論文《FABLES: Evaluating faithfulness and content selection in book-length summarization》深入探討了這一挑戰,提出了一種新穎的數據集,并探討了當前評估方法的局限性。
評估長篇摘要的一個主要障礙在于源材料的龐大量級和復雜性。要求人類注釋者閱讀整本書以評估摘要既耗時又昂貴。為了解決這個問題,該論文引入了 FABLES(Faithfulness Annotations for Book-Length Summarization),這是一個專注于新出版書籍摘要的數據集。通過招募已經閱讀過這些書籍的注釋者,該研究避開了對源材料的廣泛熟悉的需求,使注釋過程更加高效。
FABLES 通過專注于經常被忽視的兩個關鍵方面——忠實度和內容選擇——超越了現有的評估方法。該數據集不僅僅依賴于表面層面的連貫性等指標,而是采用了聲明級別的注釋。摘要被分解成單個聲明,使注釋者能夠評估其準確性并提供來自書籍的證據。這種細粒度的方法揭示了LLMs所犯錯誤的性質,突出了與事件、角色狀態和關系相關的不準確性的普遍性。此外,研究發現驗證這些聲明通常需要復雜的推理和推斷,不像更簡單的事實驗證任務那樣。
論文還探討了使用LLMs的自動評估方法的潛力。雖然這種方法在其他摘要任務中顯示出了潛力,但在長篇摘要的上下文中可靠地檢測到不忠實的聲明卻很困難。即使提供了整本書作為證據,基于LLMs的評分者也無法達到人類水平的準確度。這一發現強調了任務的復雜性,并強調了需要進一步研究以開發健壯的自動評估方法的必要性。
除了忠實度,FABLES 還揭示了內容選擇錯誤。通過分析注釋者的摘要級反饋,發現經常遺漏了關鍵信息,包括重要事件、細節和主題。論文提出了這些遺漏錯誤的分類法,為當前LLMs摘要模型的局限性提供了寶貴的見解。此外,研究觀察到LLMs傾向于過分強調發生在書籍末尾的事件,忽略了較早部分的重要信息。
FABLES: Evaluating faithfulness and content selection in book-length summarization》為該超長文本摘要領域提供了寶貴的財富。FABLES 數據集為評估長篇摘要的質量提供了一種急需的資源,超越了表面層次的指標,專注于諸如忠實度和內容選擇之類的關鍵方面。該研究還強調了當前自動評估方法的局限性,并提出了聲明級別的驗證作為LLMs長文本理解的具有挑戰性的基準。隨著這一領域的研究進展,我們可以期待LLMs能力的進一步提升和更可靠評估方法的發展,最終導致生成甚至最復雜敘述的精彩摘要的高質量摘要。
實驗
1. 忠實度和內容選擇的人工評估
注釋者評估了從由五種不同LLM配置生成的摘要中提取的單個聲明的忠實度(基于基礎模型和塊大小的變化)。他們還提供了關于整體質量和內容選擇的摘要級反饋。 數據集:FABLES,包含26本書的3,158個聲明級別注釋和130個摘要級別評論。
2. 忠實度的自動評估
使用不同訪問證據的基于LLM的評分器進行實施
- 無證據:評分器只看到聲明和摘要
- 人類證據:評分器看到聲明、摘要和來自FABLES的人工注釋證據
- BM25檢索:評分器看到聲明、摘要和使用BM25從書中檢索到的前5個句子
- 整本書:評分器看到聲明和整本書
評估:
比較了評分器在FABLES注釋的子集上的性能。
人工評估:
CLAUDE-3-OPUS獲得了最高的忠實度得分(90.66%),明顯優于其他LLMs。 GPT-4和GPT-4-TURBO緊隨其后,忠實度約為78%,而GPT-3.5-TURBO和MIXTRAL的得分約為70-72%。 對不忠實聲明的分析表明,它們通常涉及事件、角色狀態,并且需要多次推理進行驗證。
摘要級別的評論突出了關鍵信息的頻繁遺漏,導致遺漏錯誤的分類法的開發。
自動評估:
所有基于LLM的評分器都難以可靠地識別不忠實的聲明,即使有整本書作為證據。 “整本書”設置表現最好,但仍不及人類水平的準確度。
這一發現強調了在長篇摘要中自動評估忠實度的挑戰,并建議在這一領域進行進一步研究。
論文:https://arxiv.org/pdf/2404.01261.pdf
譯自(有刪改):https://intuitionmachine.gumroad.com
本文轉載自公眾號AIGC最前線
