成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="geyw0"><wbr id="geyw0"></wbr></rt>

<menu id="geyw0"></menu>

<rt id="geyw0"><em id="geyw0"></em></rt>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成

發布于 2025-2-6 11:12

瀏覽

0收藏

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

文章鏈接：https://arxiv.org/abs/2501.13554
GitHub代碼：https://github.com/byliutao/1Prompt1Story
項目主頁：https://byliutao.github.io/1Prompt1Story.github.io/

亮點直擊

首次分析了語言模型維持固有上下文一致性的能力，能夠在一個提示中讓多個幀的描述天然指代同一主體身份。?
基于上下文一致性特性，提出了一種新穎的免訓練方法——One Prompt One Story，用于實現一致的文本到圖像生成。更具體地，進一步提出了提示加權（SVR）和交叉注意一致性（IPCA）技術，以改善文本與圖像之間的對齊和主體一致性，使得每個幀提示能夠在單個提示內獨立表達，同時保持與身份提示一致的身份。
方法在生成圖像時能夠在長篇敘述中有效維護身份一致性，并在擴展基準測試中表現優異。

效果先睹為快

下圖為One Prompt One Story的故事生成效果，在無需任何訓練下就可以實現具有ID一致的多幀圖片生成。

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

總結速覽

解決的問題

文本到圖像生成模型在支持故事敘述時難以保持身份一致性。
現有解決方案通常需要大量訓練或對模型架構進行修改，限制了其適用性。

提出的方案

提出“單提示單故事”（1Prompt1Story）作為一種無需訓練的方法，通過單一提示實現一致的文本到圖像生成。

應用的技術

奇異值重加權（Singular-Value Reweighting）
身份保持的交叉注意力（Identity-Preserving Cross-Attention）

達到的效果

改善了文本-圖像對齊和主體一致性。
在與現有方法的比較中，通過定量指標和定性評估展示了其在長篇敘述中保持身份一致性的有效性，并在擴展的ConsiStory+基準上進行了驗證。

研究背景

基于文本的圖像生成（T2I）旨在從文本提示中生成高質量的圖像，以展示不同場景中的各種主題。在動畫、故事敘述、視頻生成模型及其他敘事驅動的視覺應用中，T2I擴散模型在多種場景中保持主體一致性的能力至關重要。然而，現有模型在生成一致性主體方面仍然面臨挑戰。最近基于訓練的方法比如IP-Adapter, PhotoMaker通過訓練一個Image encoder來注入身份信息，但這通常需要耗費大量時間，依賴于大型數據集進行訓練或微調，并容易破壞基礎模型本身的生成能力和文體圖像一致性。

最近出現的無訓練方法比如Consistory, StoryDiffusion通過在推理階段的self-attention模塊中共享不同圖像之間的圖像特征來生成具有強一致性的圖像，取得了顯著成果，但這類方法往往需要大量的顯存資源或復雜的模塊設計，并未充分考慮長提示中身份信息自然保持的固有特性。在這樣的背景下，我們提出了一種名為“單提示單故事”（One-Prompt-One-Story）的新方法，通過將所有所需提示整合為一個更長的句子，實現了在無需額外調優或復雜設計情況下的圖像生成一致性。通過進一步引入的技巧以改善文本和圖像之間的對齊和主題一致性，1Prompt1Story在生成圖像時能夠有效維護長敘述中的身份一致性。

如下圖所示，現有方法在一致的文本到圖像生成方面面臨挑戰。像SDXL（Podell等，2023）和Juggernaut-X-v10（RunDiffusion，2024）這樣的T2I模型在生成的圖像中常常表現出明顯的身份不一致。盡管包括IP-Adapter和ConsiStory在內的最新方法已改善了身份一致性，但它們在生成圖像與相應輸入提示之間的對齊性上有所缺失。我們的方法1Prompt1Story（倒數第一列）所示的額外結果證明了在不影響文本與圖像之間對齊的情況下，能夠實現更優越的身份一致性生成。

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

單個prompt中的身份一致性分析

在文本嵌入一致性的分析中，本文比較了single prompt生成與multi prompt生成在語義距離上的差異，并通過t-SNE進行二維可視化。研究結果顯示，single prompt生成中的各幀提示的文本嵌入更加緊密，平均L2距離為46.42，而multi prompt生成的散布更廣，距離為71.25。這表明single prompt生成在語義信息和身份一致性方面更具優勢。

在圖像生成方面，采用multi prompt生成的SDXL模型往往會生成缺乏身份一致性的角色。相較之下，通過“Naive Prompt Reweighting（NPR）”方法，利用串聯的single prompt生成可以在圖像幀中保持主體身份的一致性。這種方法在身份一致性和文本-圖像對齊上比multi prompt生成表現更佳。此外，1Prompt1Story方法在保持身份特征一致性方面更加出色，通過DINO-v2提取的視覺特征并使用t-SNE進行可視化證實了這一點。這些發現也在ConsiStory+基準中得到驗證，表明single prompt生成在身份一致性上明顯優于multi prompt生成。這說明在生成內容時，通過采用合適的方法整合提示，可以顯著增強語義和身份的一致性。

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

上面左圖顯示了SDXL通過multi-prompt生成方法生成的圖像幀，而Naive Prompt Reweighting（NPR）和我們的方法則采用了single-prompt設置。中圖展示了通過DINO-v2提取的圖像特征，并通過t-SNE可視化。Naive Prompt Reweighting和1Prompt1Story相比SDXL模型表現出更一致的身份生成。右圖展示了我們擴展的ConsiStory+基準中生成圖像特征的平均距離統計，進一步確認了1Prompt1Story在身份一致性方面表現更加出色。

方法

Naive Prompt Reweighting

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

我們可以輕松實現一種基礎方法，稱為Naive Prompt Reweighting（NPR），以提高文本到圖像（T2I）生成的性能。通過放大需要表達的幀對應的prompt embedding的權重，縮小需要抑制的幀對應的prompt embedding的權重，生成的圖像即可具備一定的身份一致性。然而，這種方法存在兩個明顯的問題：一是生成的圖片之間背景較為相似，二是身份的一致性還不夠。這是因為在text encoder的因果掩碼機制下，每個單詞對應的embedding都會包含前面所有單詞的信息，而EOT則包含整個句子的信息。因此，NPR無法完全消除其它幀prompt的影響，并且簡單的權重調整也會對embedding中的身份信息產生干擾。為了解決這些問題，我們提出了SVR和IPCA方法，可以更有效地剔除無關幀的prompt信息影響，并提高身份一致性。

1Prompt1Story

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

如上圖所示，a區域展示了1Prompt1Story的整體流程。我們將身份提示和幀提示結合為一個single prompt，隨后應用奇異值重新加權（SVR）和身份保持交叉注意（IPCA）以生成身份一致的圖像。b區域描述了SVR的過程，我們首先增強需要表達的frame prompt的語義信息（紅色箭頭所示），然后迭代地弱化抑制需要抑制的frame prompt的語義信息（藍色箭頭所示）。c區域則展示了IPCA的過程，我們通過在cross attention中引入原始single prompt的embedding中的ID信息，與當前生成的幀的embedding feature進行融合（也就是對KV進行concat），從而提升身份一致性。

實驗

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

在上圖中，我們展示了定性比較結果。我們的1Prompt1Story方法在多個關鍵方面表現出色，包括身份保留、精確的幀描述以及物體姿態的多樣性。相比之下，其他方法在這些方面存有不足。具體來說，PhotoMaker、ConsiStory和StoryDiffusion在左側示例中生成的“龍”這一主體顯示出身份不一致的問題。此外，IP-Adapter傾向于生成姿態重復、背景相似的圖像，常常忽略幀提示的細節描述。ConsiStory在一致的文本到圖像生成過程中也表現出背景重復的現象。此外，我們還與其他方法進行了定量比較。我們的方法1Prompt1Story在CLIP-T（文本-圖像對齊）得分上接近于原始SDXL模型。在身份一致性方面（通過DreamSim指標衡量），我們的效果僅次于IP-Adapter。然而，IP-Adapter的高身份相似性主要是因為它傾向于生成姿態和布局相似的角色圖像。如下圖所示，我們的方法1Prompt1Story位于圖的右上角，顯示出在文本-圖像對齊和身份一致性方面都有良好的表現。

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

應用

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

1Prompt1Story不僅能夠身份一致性生成，還能與現有的基于控制的生成方法（如ControlNet (Zhang & Agrawala, 2023)）進行結合。如上圖（左）所示，我們的方法通過ControlNet有效通過控制生成角色的姿態。此外，我們的方法可以與其他基于訓練的方法（如PhotoMaker (Li et al., 2023b)）相結合，以提高圖像與真實參考圖像的身份一致性。通過采用我們的方法，所生成的圖像更貼近于真實身份，如上圖（右）所示。

結論與展望

在這篇論文中，我們通過利用自然語言中固有的上下文一致性特性，解決了文本到圖像（T2I）生成中保持主體一致性的關鍵挑戰。我們提出的“One-Prompt-One-Story（1Prompt1Story）”方法，采用單一擴展提示，確保在多樣化的場景中實現身份的一致性。通過整合奇異值重加權和身份保持交叉注意力等技術，該方法不僅優化了幀描述，還在注意力層面增強了一致性。實驗結果在ConsiStory+基準測試中顯示出1Prompt1Story優于當前最先進技術，展現了其在動畫、互動敘事和視頻生成中的應用潛力。我們的研究強調了在T2I擴散模型中理解上下文的重要性，為實現更連貫和敘述一致的視覺輸出開辟了新路徑。

附加消融實驗

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

ICLR 2025 | One Prompt One Story！基于單個prompt實現免訓練身份一致圖像生成-AI.x社區

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/FySD3zgA4Ca6yLO4LnzJeA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

只需一步！One-Step圖像轉換來了！親測效果驚艷！

angel ? 5011瀏覽 ? 0回復
想了解Prompt 技術？看這篇就夠了！

angel ? 5036瀏覽 ? 0回復
AI生成3D主題樂園，角色建筑批量生成，風格保持一致 | SIGGRAPH 2024

Crystalcxt ? 3009瀏覽 ? 0回復
LLM基礎模型系列：Prompt-Tuning

探索AGI ? 3422瀏覽 ? 0回復
大模型高效微調Prompt Tuning論文解讀

AIRoobt ? 5305瀏覽 ? 0回復
時間序列預測+NLP大模型新作：為時序預測自動生成隱式Prompt

海因斯DK ? 3613瀏覽 ? 0回復
人工智能的一致性推理悖論

xuxiangda ? 3529瀏覽 ? 0回復
多智能體大模型協作中的角色不一致性：一致性、虛構性和模仿性

xuxiangda ? 3495瀏覽 ? 0回復
360發布FancyVideo:通過跨幀文本指導實現動態且一致的視頻生成SOTA！

angel ? 2689瀏覽 ? 0回復
小紅書開源StoryMaker：個性化圖像生成模型，實現角色一致性與背景變化的完美結合

angel ? 7241瀏覽 ? 0回復
ECCV`24 | 新加坡國立&華為提出Vista3D: 實現快速且多視角一致的3D生成

angel ? 2372瀏覽 ? 0回復
圖解DSPy：Prompt的時代終結者？！

魯班模錘1 ? 3658瀏覽 ? 0回復
從頻率到細節：ConsisID實現無縫身份一致的文本到視頻生成

angel ? 3320瀏覽 ? 0回復
Prompt調優

ermulong ? 3021瀏覽 ? 0回復
即插即用，無縫集成各種模型，港科大&螞蟻等發布Edicho：圖像編輯一致性最新成果！

angel ? 2541瀏覽 ? 0回復
賈佳亞團隊新作MagicMirror：生成身份一致且高質量個性化視頻，效果驚艷！

angel ? 2858瀏覽 ? 0回復
高分辨率3D人生成超簡單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

angel ? 2725瀏覽 ? 0回復
ChatGPT | Prompt中的CoT和ReAct

周末程序猿 ? 1533瀏覽 ? 0回復
字節開源換臉寫真模型InfiniteYou，可實現零樣本身份ID一致保持，無縫集成FLUX、ControlNets、LoRAs！

AIGCStudio ? 2001瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

多領域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發布
多模態終極大一統！字節開源BAGEL爆火：圖文生成理解雙冠王，竟能預測未來畫面？ 2025-05-22 09:33:05發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： 495篇參考文獻！北交大清華等高校發布多語言大模型綜述

下一篇：只需一步！上交&哈佛提出FluxSR：首個基于12B+大模型的單步擴散真實世界超分模型

社區精華內容

目錄

主站蜘蛛池模板：一级做a爰片久久毛片 | 69福利影院 | 久久国| 免费久| 精品二三区 | 久久99这里只有精品 | 成人性生交大片免费看r链接 | av中文字幕在线 | 性一区 | 99热这里都是精品 | 能看的av | 中文字幕一区二区在线观看 | 久久精品中文 | 国产高清一区二区三区 | 日本一区二区高清视频 | 久久久久国产精品午夜一区 | 欧美亚州综合 | 亚洲国产成人在线 | 婷婷色婷婷 | 欧美日韩在线精品 | 在线成人福利 | 久草免费在线视频 | 99热国产在线播放 | 国产伦一区二区三区视频 | 免费观看一级毛片 | 中文字幕精品一区久久久久 | 午夜免费福利影院 | 久久国产精品视频 | 欧美视频成人 | 久久久成人一区二区免费影院 | 久久久一区二区 | 成人精品一区 | av在线播放一区二区 | 亚洲欧美中文日韩在线v日本 | 欧美一区二区大片 | 日韩中文字幕免费在线观看 | 少妇特黄a一区二区三区88av | 欧美中文字幕一区二区三区 | 久久精品国产一区老色匹 | 欧美二区在线 | 成人黄色在线观看 |

<pre id="4mkk8"><strong id="4mkk8"></strong></pre>

<s id="4mkk8"><em id="4mkk8"></em></s>