成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<label id="zuxkr"></label>

<code id="zuxkr"></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

FABLES：超長文本自動摘要評估原創

發布于 2024-4-25 12:10

瀏覽

0收藏

長文本大語言模型（LLMs）的崛起使得生成整本書的摘要成為可能。然而，評估這些摘要的質量，特別是它們與源材料的忠實程度和相關內容的選擇，帶來了重大挑戰。近日，研究人員發表的論文《FABLES: Evaluating faithfulness and content selection in book-length summarization》深入探討了這一挑戰，提出了一種新穎的數據集，并探討了當前評估方法的局限性。

FABLES：超長文本自動摘要評估 -AI.x社區

評估長篇摘要的一個主要障礙在于源材料的龐大量級和復雜性。要求人類注釋者閱讀整本書以評估摘要既耗時又昂貴。為了解決這個問題，該論文引入了 FABLES（Faithfulness Annotations for Book-Length Summarization），這是一個專注于新出版書籍摘要的數據集。通過招募已經閱讀過這些書籍的注釋者，該研究避開了對源材料的廣泛熟悉的需求，使注釋過程更加高效。

FABLES 通過專注于經常被忽視的兩個關鍵方面——忠實度和內容選擇——超越了現有的評估方法。該數據集不僅僅依賴于表面層面的連貫性等指標，而是采用了聲明級別的注釋。摘要被分解成單個聲明，使注釋者能夠評估其準確性并提供來自書籍的證據。這種細粒度的方法揭示了LLMs所犯錯誤的性質，突出了與事件、角色狀態和關系相關的不準確性的普遍性。此外，研究發現驗證這些聲明通常需要復雜的推理和推斷，不像更簡單的事實驗證任務那樣。

論文還探討了使用LLMs的自動評估方法的潛力。雖然這種方法在其他摘要任務中顯示出了潛力，但在長篇摘要的上下文中可靠地檢測到不忠實的聲明卻很困難。即使提供了整本書作為證據，基于LLMs的評分者也無法達到人類水平的準確度。這一發現強調了任務的復雜性，并強調了需要進一步研究以開發健壯的自動評估方法的必要性。

除了忠實度，FABLES 還揭示了內容選擇錯誤。通過分析注釋者的摘要級反饋，發現經常遺漏了關鍵信息，包括重要事件、細節和主題。論文提出了這些遺漏錯誤的分類法，為當前LLMs摘要模型的局限性提供了寶貴的見解。此外，研究觀察到LLMs傾向于過分強調發生在書籍末尾的事件，忽略了較早部分的重要信息。

FABLES: Evaluating faithfulness and content selection in book-length summarization》為該超長文本摘要領域提供了寶貴的財富。FABLES 數據集為評估長篇摘要的質量提供了一種急需的資源，超越了表面層次的指標，專注于諸如忠實度和內容選擇之類的關鍵方面。該研究還強調了當前自動評估方法的局限性，并提出了聲明級別的驗證作為LLMs長文本理解的具有挑戰性的基準。隨著這一領域的研究進展，我們可以期待LLMs能力的進一步提升和更可靠評估方法的發展，最終導致生成甚至最復雜敘述的精彩摘要的高質量摘要。

FABLES：超長文本自動摘要評估 -AI.x社區

實驗

1. 忠實度和內容選擇的人工評估

注釋者評估了從由五種不同LLM配置生成的摘要中提取的單個聲明的忠實度（基于基礎模型和塊大小的變化）。他們還提供了關于整體質量和內容選擇的摘要級反饋。數據集：FABLES，包含26本書的3,158個聲明級別注釋和130個摘要級別評論。

2. 忠實度的自動評估

使用不同訪問證據的基于LLM的評分器進行實施

無證據：評分器只看到聲明和摘要
人類證據：評分器看到聲明、摘要和來自FABLES的人工注釋證據
BM25檢索：評分器看到聲明、摘要和使用BM25從書中檢索到的前5個句子
整本書：評分器看到聲明和整本書

評估：

比較了評分器在FABLES注釋的子集上的性能。

人工評估：

CLAUDE-3-OPUS獲得了最高的忠實度得分（90.66%），明顯優于其他LLMs。 GPT-4和GPT-4-TURBO緊隨其后，忠實度約為78%，而GPT-3.5-TURBO和MIXTRAL的得分約為70-72%。對不忠實聲明的分析表明，它們通常涉及事件、角色狀態，并且需要多次推理進行驗證。

摘要級別的評論突出了關鍵信息的頻繁遺漏，導致遺漏錯誤的分類法的開發。

自動評估：

所有基于LLM的評分器都難以可靠地識別不忠實的聲明，即使有整本書作為證據。 “整本書”設置表現最好，但仍不及人類水平的準確度。

這一發現強調了在長篇摘要中自動評估忠實度的挑戰，并建議在這一領域進行進一步研究。

論文：https://arxiv.org/pdf/2404.01261.pdf

譯自（有刪改）：https://intuitionmachine.gumroad.com

本文轉載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/xfBWtAImEO_1ofHj3wovsA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

長文本大語言模型

贊

收藏

回復

舉報

回復

相關推薦

LLM超長上下文查詢-性能評估實戰

ermulong ? 3142瀏覽 ? 0回復
利用人工智能對文本內容進行自動摘要

51CTO內容精選 ? 3104瀏覽 ? 0回復
使用BERT的LLM提取摘要

51CTO內容精選 ? 3285瀏覽 ? 0回復
騰訊AI新研究打破長文本生成模型限制，序列并行技術再突破

AI論文解讀 ? 6266瀏覽 ? 0回復
LLM超長上下文查詢-性能評估實戰

ermulong ? 2915瀏覽 ? 0回復
將圖像自動文本化，圖像描述質量更高、更準確了

輕薄滴假象 ? 2476瀏覽 ? 0回復
檢索生成(RAG) vs 長文本大模型：實際應用中如何選擇？

Baihai_IDP ? 3153瀏覽 ? 0回復
可擴展性長文本評測集——Ada-LEval 詳細解讀

戀戀青鳥 ? 2840瀏覽 ? 0回復
Long-CLIP：無縫擴展 CLIP 模型的長文本理解能力

amei2000go ? 5670瀏覽 ? 0回復
NeedleBench 超長文本評測基準：大語言模型能否在 1000K 長度上檢索推理？

戀戀青鳥 ? 3033瀏覽 ? 0回復
RAG新范式MemLong：用于長文本生成的記憶增強檢索

PaperAgent ? 2981瀏覽 ? 0回復
遲分:RAG中長文本處理的突破性技術

芝士AI吃魚 ? 3405瀏覽 ? 0回復
MemLong：用于長文本建模的記憶增強檢索

sbf_2000 ? 2732瀏覽 ? 0回復
使用TAG和RAG實現摘要和標簽的自動化來簡化客戶反饋分析

51CTO內容精選 ? 2726瀏覽 ? 0回復
可擴展性長文本評測集——Ada-LEval 詳細解讀

戀戀青鳥 ? 2208瀏覽 ? 0回復
IdentifyMe：一個具有挑戰性的長文本指代消解基準測試

AI論文解讀 ? 2853瀏覽 ? 0回復
大模型長文本所面臨的主要問題

AI探索時代 ? 3187瀏覽 ? 0回復
再談大模型長文本分塊，以及分塊在RAG中的作用？

AI探索時代 ? 3674瀏覽 ? 0回復
Kimi的長文本能力：為何優于其他大模型

風云2002_1 ? 2585瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-09 09:10:30發布
預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-03 15:46:55發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： OpenAI Preparedness團隊首席Aleksander Madry：機器學習模型的內部計算如何將輸入轉化為預測？

下一篇： Llama3背后的秘密：HuggingFace發布萬億級數據集Fineweb

社區精華內容

目錄

主站蜘蛛池模板：三级免费| 国产精品欧美一区二区 | 欧美国产日韩精品 | jizz亚洲人| 国产超碰人人爽人人做人人爱 | 美女久久 | 91精品久久久久久久久久 | 久久婷婷麻豆国产91天堂 | 国产精品久久久亚洲 | 一区二区久久 | 蜜桃视频一区二区三区 | 夜夜爽99久久国产综合精品女不卡 | 亚洲国产精品99久久久久久久久 | 午夜在线小视频 | 99精品网| 视频一区在线 | 久久亚洲一区二区三区四区 | 日韩欧美三级电影 | 国产精品视频综合 | 国产一区二区自拍 | 欧美成人a∨高清免费观看色999日韩 | 欧美video | 9191av| 超级碰在线 | 国产精品18hdxxxⅹ在线 | 亚洲视频免费在线观看 | 国产欧美精品区一区二区三区 | 视频二区国产 | 在线午夜 | 狠狠做六月爱婷婷综合aⅴ 国产精品视频网 | 国产成人高清 | 久久精品免费 | 亚洲劲爆av | 久久国产精品久久久久久 | 成人h片在线观看 | 久久久国产一区二区 | 日韩精品视频一区二区三区 | 色在线免费视频 | 国产高清在线精品 | 99精品国产一区二区三区 | 久久久久亚洲国产|

_{<label id="urysb"></label>}

<code id="urysb"><strong id="urysb"><td id="urysb"></td></strong></code>

<code id="urysb"><dl id="urysb"><meter id="urysb"></meter></dl></code>

_{<label id="urysb"></label>}