成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

FABLES:超長文本自動摘要評估 原創

發布于 2024-4-25 12:10
瀏覽
0收藏

長文本大語言模型(LLMs)的崛起使得生成整本書的摘要成為可能。然而,評估這些摘要的質量,特別是它們與源材料的忠實程度和相關內容的選擇,帶來了重大挑戰。近日,研究人員發表的論文《FABLES: Evaluating faithfulness and content selection in book-length summarization》深入探討了這一挑戰,提出了一種新穎的數據集,并探討了當前評估方法的局限性。

FABLES:超長文本自動摘要評估 -AI.x社區

評估長篇摘要的一個主要障礙在于源材料的龐大量級和復雜性。要求人類注釋者閱讀整本書以評估摘要既耗時又昂貴。為了解決這個問題,該論文引入了 FABLES(Faithfulness Annotations for Book-Length Summarization),這是一個專注于新出版書籍摘要的數據集。通過招募已經閱讀過這些書籍的注釋者,該研究避開了對源材料的廣泛熟悉的需求,使注釋過程更加高效。

FABLES 通過專注于經常被忽視的兩個關鍵方面——忠實度和內容選擇——超越了現有的評估方法。該數據集不僅僅依賴于表面層面的連貫性等指標,而是采用了聲明級別的注釋。摘要被分解成單個聲明,使注釋者能夠評估其準確性并提供來自書籍的證據。這種細粒度的方法揭示了LLMs所犯錯誤的性質,突出了與事件、角色狀態和關系相關的不準確性的普遍性。此外,研究發現驗證這些聲明通常需要復雜的推理和推斷,不像更簡單的事實驗證任務那樣。

論文還探討了使用LLMs的自動評估方法的潛力。雖然這種方法在其他摘要任務中顯示出了潛力,但在長篇摘要的上下文中可靠地檢測到不忠實的聲明卻很困難。即使提供了整本書作為證據,基于LLMs的評分者也無法達到人類水平的準確度。這一發現強調了任務的復雜性,并強調了需要進一步研究以開發健壯的自動評估方法的必要性。

除了忠實度,FABLES 還揭示了內容選擇錯誤。通過分析注釋者的摘要級反饋,發現經常遺漏了關鍵信息,包括重要事件、細節和主題。論文提出了這些遺漏錯誤的分類法,為當前LLMs摘要模型的局限性提供了寶貴的見解。此外,研究觀察到LLMs傾向于過分強調發生在書籍末尾的事件,忽略了較早部分的重要信息。

FABLES: Evaluating faithfulness and content selection in book-length summarization》為該超長文本摘要領域提供了寶貴的財富。FABLES 數據集為評估長篇摘要的質量提供了一種急需的資源,超越了表面層次的指標,專注于諸如忠實度和內容選擇之類的關鍵方面。該研究還強調了當前自動評估方法的局限性,并提出了聲明級別的驗證作為LLMs長文本理解的具有挑戰性的基準。隨著這一領域的研究進展,我們可以期待LLMs能力的進一步提升和更可靠評估方法的發展,最終導致生成甚至最復雜敘述的精彩摘要的高質量摘要。

FABLES:超長文本自動摘要評估 -AI.x社區

實驗

1. 忠實度和內容選擇的人工評估

注釋者評估了從由五種不同LLM配置生成的摘要中提取的單個聲明的忠實度(基于基礎模型和塊大小的變化)。他們還提供了關于整體質量和內容選擇的摘要級反饋。 數據集:FABLES,包含26本書的3,158個聲明級別注釋和130個摘要級別評論。

2. 忠實度的自動評估

使用不同訪問證據的基于LLM的評分器進行實施

  • 無證據:評分器只看到聲明和摘要
  • 人類證據:評分器看到聲明、摘要和來自FABLES的人工注釋證據
  • BM25檢索:評分器看到聲明、摘要和使用BM25從書中檢索到的前5個句子
  • 整本書:評分器看到聲明和整本書

評估

比較了評分器在FABLES注釋的子集上的性能。

人工評估

CLAUDE-3-OPUS獲得了最高的忠實度得分(90.66%),明顯優于其他LLMs。 GPT-4和GPT-4-TURBO緊隨其后,忠實度約為78%,而GPT-3.5-TURBO和MIXTRAL的得分約為70-72%。 對不忠實聲明的分析表明,它們通常涉及事件、角色狀態,并且需要多次推理進行驗證。

摘要級別的評論突出了關鍵信息的頻繁遺漏,導致遺漏錯誤的分類法的開發。

自動評估

所有基于LLM的評分器都難以可靠地識別不忠實的聲明,即使有整本書作為證據。 “整本書”設置表現最好,但仍不及人類水平的準確度。

這一發現強調了在長篇摘要中自動評估忠實度的挑戰,并建議在這一領域進行進一步研究。

論文:https://arxiv.org/pdf/2404.01261.pdf

譯自(有刪改):https://intuitionmachine.gumroad.com


本文轉載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/xfBWtAImEO_1ofHj3wovsA??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 三级免费| 国产精品欧美一区二区 | 欧美国产日韩精品 | jizz亚洲人| 国产超碰人人爽人人做人人爱 | 美女久久 | 91精品久久久久久久久久 | 久久婷婷麻豆国产91天堂 | 国产精品久久久亚洲 | 一区二区久久 | 蜜桃视频一区二区三区 | 夜夜爽99久久国产综合精品女不卡 | 亚洲国产精品99久久久久久久久 | 午夜在线小视频 | 99精品网| 视频一区在线 | 久久亚洲一区二区三区四区 | 日韩欧美三级电影 | 国产精品视频综合 | 国产一区二区自拍 | 欧美成人a∨高清免费观看 色999日韩 | 欧美video | 9191av| 超级碰在线 | 国产精品18hdxxxⅹ在线 | 亚洲视频免费在线观看 | 国产欧美精品区一区二区三区 | 视频二区国产 | 在线午夜 | 狠狠做六月爱婷婷综合aⅴ 国产精品视频网 | 国产成人高清 | 久久精品免费 | 亚洲劲爆av | 久久国产精品久久久久久 | 成人h片在线观看 | 久久久国产一区二区 | 日韩精品视频一区二区三区 | 色在线免费视频 | 国产高清在线精品 | 99精品国产一区二区三区 | 久久久久亚洲国产|