成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復(fù)雜文檔理解性能爆炸12%,錯(cuò)誤率直降21%

發(fā)布于 2025-4-14 23:56
瀏覽
0收藏

文檔問(wèn)答太難了 

含有豐富文本和視覺元素(如圖表、圖像等)的長(zhǎng)文檔,在進(jìn)行文檔問(wèn)答時(shí),現(xiàn)有的方案有其局限性:

  • 傳統(tǒng)的大型語(yǔ)言模型(LLMs)僅能處理文本信息
  • 大型視覺語(yǔ)言模型(LVLMs)雖然能夠處理視覺內(nèi)容,但在處理長(zhǎng)文檔時(shí)往往效率低下,并且難以對(duì)文本和視覺信息進(jìn)行有效的融合與推理。
  • 現(xiàn)有的檢索增強(qiáng)生成(RAG)方法雖然能夠從長(zhǎng)文檔中提取關(guān)鍵信息,但它們通常僅依賴于單一模態(tài)(文本或圖像)進(jìn)行檢索,缺乏跨模態(tài)的信息整合能力。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復(fù)雜文檔理解性能爆炸12%,錯(cuò)誤率直降21%-AI.x社區(qū)

MDocAgent 

5個(gè)智能體

MDocAgent通過(guò)引入多個(gè)專門的智能體(agents),協(xié)同處理文本和圖像信息,以實(shí)現(xiàn)對(duì)文檔內(nèi)容的深入理解。 具體而言,MDocAgent 包含以下五個(gè)智能體:

  • 通用智能體(General Agent):負(fù)責(zé)初步的多模態(tài)信息整合,為后續(xù)的分析提供基礎(chǔ)。
  • 關(guān)鍵信息提取智能體(Critical Agent):識(shí)別并提取對(duì)回答問(wèn)題至關(guān)重要的文本和視覺信息,為其他智能體提供指導(dǎo)。
  • 文本智能體(Text Agent):專注于文本信息的分析,從文本中提取與問(wèn)題相關(guān)的細(xì)節(jié)。
  • 圖像智能體(Image Agent):專注于圖像信息的分析,從圖像中提取與問(wèn)題相關(guān)的視覺細(xì)節(jié)。
  • 總結(jié)智能體(Summarizing Agent):綜合所有智能體的輸出,生成最終的答案。

MDocAgent架構(gòu)

  • MDocAgent 通過(guò)多模態(tài)多智能體的協(xié)同工作,實(shí)現(xiàn)對(duì)文檔內(nèi)容的全面理解。
  • 該框架不僅關(guān)注文本和圖像信息的獨(dú)立分析,還強(qiáng)調(diào)跨模態(tài)信息的融合與推理。
  • 通過(guò)將文檔預(yù)處理、多模態(tài)上下文檢索、關(guān)鍵信息提取、專門智能體處理以及答案合成等步驟有機(jī)結(jié)合,MDocAgent 能夠在復(fù)雜的文檔環(huán)境中,精準(zhǔn)地定位和整合關(guān)鍵信息,從而生成準(zhǔn)確的答案。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復(fù)雜文檔理解性能爆炸12%,錯(cuò)誤率直降21%-AI.x社區(qū)

  • 文檔預(yù)處理:

a.文檔預(yù)處理的目的是,將文檔轉(zhuǎn)換為適合后續(xù)分析的格式。

b.對(duì)于文檔中的每一頁(yè),使用 OCR 技術(shù)識(shí)別圖像中的文本內(nèi)容,同時(shí)通過(guò) PDF 解析技術(shù)提取數(shù)字化文本。

c.將提取的文本表示為文本段落序列,每個(gè)段落包含一頁(yè)中的部分或全部文本。

d.同時(shí),將每一頁(yè)的原始圖像保留下來(lái),以便后續(xù)的視覺分析。

  • 多模態(tài)上下文檢索:

a.多模態(tài)上下文檢索階段的目標(biāo)是,從文檔中檢索與問(wèn)題最相關(guān)的文本和圖像信息。

b.使用 ColBERT 對(duì)文檔中的文本段落進(jìn)行索引,并根據(jù)問(wèn)題檢索出最相關(guān)的文本段落。

c.使用 ColPali 對(duì)文檔中的圖像頁(yè)面進(jìn)行處理,生成視覺嵌入向量,并根據(jù)問(wèn)題檢索出最相關(guān)的圖像頁(yè)面。

d.通過(guò)比較文本和圖像的相關(guān)性得分,選擇最相關(guān)的文本段落和圖像頁(yè)面作為后續(xù)分析的上下文。

e.這一階段通過(guò)結(jié)合文本和圖像檢索,為后續(xù)的智能體分析提供了豐富的上下文信息。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復(fù)雜文檔理解性能爆炸12%,錯(cuò)誤率直降21%-AI.x社區(qū)

  • 關(guān)鍵信息提取:

a.關(guān)鍵信息提取階段目的是,從檢索到的上下文中提取對(duì)回答問(wèn)題至關(guān)重要的信息。

b.通用智能體對(duì)檢索到的文本和圖像信息進(jìn)行初步分析,生成初步答案。

c.關(guān)鍵信息提取智能體則進(jìn)一步分析這些信息,提取出對(duì)回答問(wèn)題至關(guān)重要的文本和視覺信息。

d.提取的關(guān)鍵信息將作為后續(xù)專門智能體處理的輸入,指導(dǎo)它們的分析過(guò)程。

e.這一階段通過(guò)提取關(guān)鍵信息,為后續(xù)的專門智能體處理提供明確的指導(dǎo),提高系統(tǒng)的效率和準(zhǔn)確性。

  • 專門智能體處理:

a.專門智能體處理的目的是,對(duì)提取的關(guān)鍵信息進(jìn)行深入分析。

b.文本智能體接收提取的關(guān)鍵文本信息和相關(guān)的文本上下文,通過(guò)分析文本內(nèi)容,生成詳細(xì)的文本答案。

c.圖像智能體接收提取的關(guān)鍵視覺信息和相關(guān)的圖像上下文,通過(guò)分析圖像內(nèi)容,生成詳細(xì)的視覺答案。

d.文本智能體和圖像智能體分別從文本和圖像的角度對(duì)問(wèn)題進(jìn)行分析,生成的答案將作為后續(xù)答案合成階段的輸入。

e.這一階段通過(guò)專門智能體的協(xié)同工作,實(shí)現(xiàn)對(duì)文本和圖像信息的深入分析,為最終答案的生成提供了豐富的依據(jù)。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復(fù)雜文檔理解性能爆炸12%,錯(cuò)誤率直降21%-AI.x社區(qū)

  • 答案合成:

a.答案合成階段目的是,綜合所有智能體的輸出,生成最終的答案。

b.總結(jié)智能體接收來(lái)自通用智能體、文本智能體和圖像智能體的答案。

c.總結(jié)智能體分析這些答案,識(shí)別其中的共同點(diǎn)、差異和互補(bǔ)信息。

d.總結(jié)智能體根據(jù)這些分析結(jié)果,生成一個(gè)綜合性的答案,該答案不僅考慮了文本和圖像信息,還考慮了它們之間的關(guān)系。

e.這一階段通過(guò)綜合分析所有智能體的輸出,生成了一個(gè)全面且準(zhǔn)確的答案。

MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1 

案例1

  • 要求比較文檔中兩個(gè)不同拉丁裔群體的人口數(shù)量:外國(guó)出生的拉丁裔和通過(guò)手機(jī)采訪的拉丁裔。
  • 文檔中包含了相關(guān)的文本描述和表格數(shù)據(jù),但這些信息分散在不同的位置,需要同時(shí)從文本和圖像中提取并整合。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復(fù)雜文檔理解性能爆炸12%,錯(cuò)誤率直降21%-AI.x社區(qū)

  • 檢索階段:

a.ColBERT 和 ColPali 成功檢索到了包含相關(guān)信息的頁(yè)面,但僅檢索到頁(yè)面是不夠的,還需要進(jìn)一步分析頁(yè)面中的具體內(nèi)容。

b.ColBERT:僅依賴文本信息,未能準(zhǔn)確解析文本中的數(shù)值數(shù)據(jù),錯(cuò)誤地得出“外國(guó)出生的拉丁裔人口更多”的結(jié)論。

c.M3DocRAG:雖然結(jié)合了文本和圖像信息,但由于缺乏對(duì)關(guān)鍵信息的細(xì)致提取和跨模態(tài)整合能力,未能正確回答問(wèn)題。

d.MDocAgent 通過(guò)多模態(tài)上下文檢索,同時(shí)利用文本和圖像信息,避免了單一模態(tài)方法的局限性。

  • 初步分析與關(guān)鍵信息提取:

a.通用智能體(General Agent)生成了一個(gè)初步但較為模糊的答案,指出“通過(guò)手機(jī)采訪的拉丁裔人口更多”。

  • 關(guān)鍵信息提取智能體(Critical Agent)識(shí)別出關(guān)鍵信息,包括文本中的“外國(guó)出生(排除波多黎各)”和圖像中的“手機(jī)抽樣框架”表格。
  • 專門智能體處理:

a.文本智能體(Text Agent)根據(jù)關(guān)鍵信息提取智能體提供的線索,從文本中提取到“外國(guó)出生(排除波多黎各)的人數(shù)為 795”。

b.圖像智能體(Image Agent)從表格中提取到“通過(guò)手機(jī)采訪的人數(shù)為 1051”。

  • 答案合成:

a.總結(jié)智能體(Summarizing Agent)整合所有智能體的輸出,生成最終答案:“通過(guò)手機(jī)采訪的拉丁裔人數(shù)(1051)大于外國(guó)出生的拉丁裔人數(shù)(795)”。

案例2:

  • 要求從一個(gè)列表中識(shí)別出唯一一個(gè)沒有包含人員的相應(yīng)圖像的原因。
  • 文檔中包含了一個(gè)關(guān)于 NTU 智慧校園的列表,但列表沒有明確編號(hào),且每個(gè)原因旁邊都有相應(yīng)的圖像。
  • 檢索階段:

a.ColBERT 未能檢索到正確的證據(jù)頁(yè)面,導(dǎo)致 ColBERT + Llama-3.1-8B 無(wú)法回答問(wèn)題。

b.ColPali 成功檢索到了包含證據(jù)的頁(yè)面,但由于缺乏對(duì)關(guān)鍵信息的細(xì)致提取和跨模態(tài)整合能力,未能正確回答問(wèn)題。

c.MDocAgent 通過(guò)多模態(tài)檢索,成功定位到包含關(guān)鍵信息的頁(yè)面。

  • 初步分析與關(guān)鍵信息提取:

a.通用智能體(General Agent)生成了一個(gè)初步答案,但未能準(zhǔn)確識(shí)別。

b.關(guān)鍵信息提取智能體(Critical Agent)識(shí)別出關(guān)鍵文本線索“Most Beautiful Campus”和相應(yīng)的視覺元素(NTU 校園的圖像)。

  • 專門智能體處理:

a.文本智能體(Text Agent)根據(jù)關(guān)鍵信息提取智能體提供的線索,嘗試從文本中找到相關(guān)信息,但由于文本中沒有明確的列表編號(hào),未能直接找到答案。

b.圖像智能體(Image Agent)利用關(guān)鍵信息,正確識(shí)別出“NTU campus without people”作為答案。

  • 答案合成:

a.總結(jié)智能體(Summarizing Agent)綜合所有智能體的輸出,最終確定答案為“Most Beautiful Campus”,并指出該原因的圖像中沒有人員

案例3:

  • 要求從文檔中識(shí)別出 Professor Lebour 的學(xué)位。
  • 文檔中包含相關(guān)文本描述和圖像,但信息分散在不同的位置,需要同時(shí)從文本和圖像中提取并整合。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復(fù)雜文檔理解性能爆炸12%,錯(cuò)誤率直降21%-AI.x社區(qū)

  • 檢索階段:

a.ColBERT 成功檢索到了包含相關(guān)信息的頁(yè)面,但 ColBERT + Llama-3.1-8B 在生成答案時(shí)錯(cuò)誤地將 “F.G.S.” 識(shí)別為一個(gè)學(xué)位,導(dǎo)致答案不準(zhǔn)確。

b.ColPali 未能檢索到正確的頁(yè)面,導(dǎo)致 M3DocRAG 無(wú)法回答問(wèn)題。

c.MDocAgent 通過(guò)多模態(tài)檢索,成功定位到包含關(guān)鍵信息的頁(yè)面。

  • 初步分析與關(guān)鍵信息提取:

a.通用智能體(General Agent)生成了一個(gè)初步答案,但未能準(zhǔn)確識(shí)別所有信息,錯(cuò)誤地將 “F.G.S.” 識(shí)別為一個(gè)學(xué)位。

b.關(guān)鍵信息提取智能體(Critical Agent)識(shí)別出關(guān)鍵文本線索 “M.A.”,并從圖像中提取了相關(guān)的視覺線索。

  • 專門智能體處理:

a.文本智能體(Text Agent)根據(jù)關(guān)鍵信息提取智能體提供的線索,從文本中提取到 “G. A. Lebour, M.A., F.G.S.”,并確認(rèn) “M.A.” 是一個(gè)學(xué)位。

b.圖像智能體(Image Agent)利用關(guān)鍵信息,確認(rèn)圖像中沒有提供額外的學(xué)位信息,但支持文本中的 “M.A.”。

  • 答案合成:

a.總結(jié)智能體(Summarizing Agent)綜合所有智能體的輸出,最終確定答案為 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。

??https://arxiv.org/pdf/2503.13964??

??https://github.com/aiming-lab/MDocAgent??

本文轉(zhuǎn)載自??CourseAI??,作者:CourseAI

標(biāo)簽
已于2025-4-15 09:43:43修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 一级aaaaaa毛片免费同男同女 | 日韩福利在线 | 三级成人在线观看 | 国产区精品在线观看 | 大象一区| 麻豆视频在线看 | 羞羞视频网站免费观看 | 免费一看一级毛片 | 99re热精品视频国产免费 | 一级免费在线视频 | 国产精品久久久久久久免费观看 | 国产精品美女久久久久久免费 | 人人做人人澡人人爽欧美 | 国产91色在线 | 亚洲 | 天天搞夜夜操 | 中文字幕一区二区视频 | 激情免费视频 | 亚洲精品永久免费 | 在线成人免费视频 | 91电影| 操久久| 亚洲视频在线看 | 久久亚洲一区二区 | 日韩在线精品视频 | 欧美不卡 | 欧美精品在欧美一区二区少妇 | 日韩国产精品一区二区三区 | 国产 日韩 欧美 在线 | 欧美日韩精品 | 天堂成人国产精品一区 | 在线观看亚洲 | 精品视频一区二区三区在线观看 | 密桃av| 日本一二三区高清 | 亚洲国产成人精品女人久久久 | 99免费在线视频 | 天堂素人约啪 | 国产精品毛片av | 五月槐花香 | 一区二区三区视频在线 | 亚洲国产一区在线 |