使用多Agent進行海報生成的技術方案及評估套件-P2P、paper2poster 原創(chuàng)
最近字節(jié)、滑鐵盧大學相關團隊同時放出了他們使用Agent進行海報生成的技術方案,P2P和Paper2Poster,傳統(tǒng)方案如類似ppt生成等思路,基本上采用固定的模版,提取相關的關鍵元素進行模版填充,因此,海報生成的質量完全依賴于規(guī)則模版的豐富程度。下面來看一下這兩個團隊使用Agent進行海報生成的技術思路,覆蓋多種技術鏈路,如:文檔智能解析、LLM、布局生成、Agent等。比如有趣,下面來看看這兩個技術方案,供參考。
學術論文->學術海報
學術海報在科學交流中起著至關重要的作用,需要在有限的頁面上壓縮長篇幅的多模態(tài)文檔。
因此,如何使用Agent生成海報,并且評價生成的海報質量?
P2P框架
P2P框架
由三個Agent組成:
- Figure Agent: 負責處理輸入研究論文中的所有視覺元素。使用DocLayout-YOLO模型進行版式分析,提取圖表,同時,圖描述器(LLM結合prompt)通過空間關系分析識別相應的圖注。并通過空間關系分析識別相應的標題,最終合成語義視覺單元。
版式分析
你是一位學術圖像分析專家。你的任務是提供學術人物、圖表、圖表或圖像的詳細描述。描述該圖所顯示的內容、其在學術論文中的潛在用途以及任何可見的關鍵數(shù)據(jù)或趨勢。描述應簡明扼要,不應超過100字。 圖像數(shù)據(jù): (Base64 PNG圖像數(shù)據(jù)。)
Section Agent:
(1)Section Generator: 分析輸入論文,動態(tài)推斷目標海報的詳細結構模式(如引言、方法、結果等)。
(2)Content Generator: 利用結構模式、原始輸入論文和Figure Agent提供的視覺元素描述,生成語義連貫的海報文本。
Orchestrate Agent: HTML Generator: 利用Section Agent生成的Markdown格式文本和Figure Agent提取的實際視覺元素,生成HTML和CSS格式的海報。
論文到海報過程實例:紅色箭頭明確地將原始論文中的關鍵元素,如標題、特定圖表和章節(jié),映射到最終海報中的相應位置和表示
P2PEVAL
構建了一個數(shù)據(jù)-P2PEVAL數(shù)據(jù)集包括從ACL會議系列和SciPostLayout收集的121篇論文-海報對,保留了原始研究論文的PDF格式和相應的學術海報的PDF和PNG格式。
評價方式
通用海報評估
- ??1:作者與標題準確率
- ??2:圖像唯一性與質量
- ??3:平衡空白
- ??4:上下文相關性
- ??5:最佳視覺與文本比例
- ??6:維度適宜性
- ??7:視覺一致性
- ??8:內容保真度
- ??9:信息流邏輯
- ??10:自包含解釋
訓練了一個專門的打分模型 - XGBoost 模型通過 10 折交叉驗證得出通用評分。
細粒度海報評估
使用上述公式對細分指標進行賦分。專門用于衡量每張生成海報在內容和視覺元素上對官方學術海報的相似性,這一塊的ground truth來源于標注規(guī)范。
實驗性能
PosterAgent框架
方法架構
如上圖,PosterAgent是論文的核心創(chuàng)新,包含三個主要組件:
1.解析器(Parser):
文檔智能解析技術鏈路
- 功能:將科學論文提煉為結構化資產庫。
- 過程:首先攝取論文的PDF文件,使用MARKER和DOCLING等文檔解析工具將其轉換為Markdown格式。然后,通過大模型處理Markdown,生成JSON-like的大綱。這一資產庫包含論文的關鍵元素,如:文本、圖表和表格,為后續(xù)步驟提供結構化輸入。
- 目的:確保論文內容被組織成易于處理的格式。 所以這一部分的技術點又回到了之前介紹過的《??文檔智能??》相關內容。PDF解析清晰的過程如下:
2.規(guī)劃器(Planner):
技術點:圖文匹配、布局生成(這里使用的是二叉樹的布局生成策略,確保布局合理,內容分配均勻,閱讀順序清晰。)
- 功能:將文本和視覺元素(如圖表)排列成連貫的布局。形成(section, figure)對
- 過程:從解析器獲取結構化資產庫,采用二叉樹布局策略排列內容。布局設計考慮閱讀順序(例如從左到右、從上到下)和空間平衡,使用逐步放大的策略迭代生成面板。規(guī)劃器還會估計內容長度(如字數(shù)、圖表大小)以適應海報的尺寸限制。
- 目的:創(chuàng)建邏輯清晰、視覺平衡的布局,確保海報易于閱讀和理解。
3.繪制-評論者循環(huán)(Painter–Commenter Loop):
- 繪制組件(Painter):為海報的每個部分生成要點總結,并使用python-pptx生成渲染代碼,創(chuàng)建面板的視覺布局。繪制組件確保文本以子彈點形式呈現(xiàn),字體大小如標題60、要點48,保持一致性。
- 評論者(Commenter):一個視覺-語言模型(VLM),分析生成的面板,檢測文本溢出、空余空間等問題。通過上下文參考提示(例如一個顯示溢出的例子和一個理想布局的例子)提供反饋,確保對齊和美觀。循環(huán)在繪制和評論之間迭代,直到面板達到預期質量。
- 功能:優(yōu)化每個面板的視覺和文本質量。
- 過程:
- 目的:確保每個面板既信息豐富又美觀,避免溢出或錯位。 技術點:VLM充當Commenter。
評價維度
評測框架
這篇文章還有一個值得看的點就是它的評價維度,總結如下:
評估維度 | 描述 |
視覺質量 | 測量生成的海報與人類設計的海報在語義上的對齊程度,確保視覺元素(如圖表、圖片)放置適當且相關。 |
文本連貫性 | 評估海報上文本的流暢度和連貫性,確保文本清晰、簡潔,無語法錯誤。 |
整體評估 | 使用六項細化標準評估海報的美學和信息方面,包括布局平衡、可讀性和視覺吸引力,由VLM-as-judge評分,確保客觀性。 |
PaperQuiz | 測量海報傳達論文核心內容的能力,通過VLM生成的測驗測試海報是否有效傳遞關鍵信息,例如論文的主要發(fā)現(xiàn)和結論。 |
實驗性能
一些結論:
- 視覺質量和文本連貫性:GPT-4o生成的圖像在視覺上最具吸引力,但文本連貫性較差。PosterAgent在圖形相關性方面表現(xiàn)最佳,視覺相似性僅次于人類設計的海報。
- VLM-as-Judge:人類設計和GT海報在美學和信息得分上最高。PosterAgent-4o在這些指標上表現(xiàn)接近人類設計海報,綜合得分為3.72。
- PaperQuiz:GPT-4o的4o-HTML變體在美學得分上最高,但在信息得分上較低。PosterAgent變體在信息質量上表現(xiàn)最佳,綜合考慮Verbatim和Interpretive問題的得分最高。
- 效率:PosterAgent在使用GPT-4o時平均消耗101.1K tokens,在使用Qwen-2.5-7B時消耗47.6K tokens,顯著減少了計算成本。
實例
參考文獻:
- paper:Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers,https://arxiv.org/pdf/2505.21497v1
- code:https://github.com/Paper2Poster/Paper2Poster
- P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark,https://arxiv.org/abs/2505.17104
- code:https://github.com/multimodal-art-projection/P2P
本文轉載自??大模型自然語言處理?? 作者:余俊暉
