成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OCR-Omni來了!字節&華師提出統一的多模態生成模型TextHarmony

人工智能 新聞
TextHarmony是一種多功能多模態生成模型,擅長協調視覺文本理解和生成的不同任務。利用所提出的 Slide-LoRA 機制,TextHarmony 在單一模型實例中同步視覺和語言模態的生成過程,有效地解決了不同模態之間固有的不一致問題。

本文經AIGC Studio公眾號授權轉載,轉載請聯系出處。

在人工智能領域,賦予機器類人的圖像文字感知、理解、編輯和生成能力一直是研究熱點。目前,視覺文字領域的大模型研究主要聚焦于單模態生成任務。盡管這些模型在某些任務上實現了統一,但在 OCR 領域的多數任務上仍難以達成全面整合。

字節&華師提出統一的多模態生成模型TextHarmony:能夠熟練地理解和生成視覺文本

圖片

圖 (a) 說明了不同類型的圖像文本生成模型:視覺文本理解模型只能生成文本,視覺文本生成模型只能生成圖像,而 TextHarmony 可以生成文本和圖像。圖 (b) 說明了 TextHarmony 在為各種以文本為中心的任務生成不同模態方面的多功能性。

相關鏈接

論文鏈接: https://arxiv.org/abs/2407.16364

代碼開源: https://github.com/bytedance/TextHarmony

論文閱讀

圖片

摘要

在這項工作中,我們提出了 TextHarmony,這是一種統一且通用的多模態生成模型,能夠熟練地理解和生成視覺文本。由于視覺和語言模態之間固有的不一致,同時生成圖像和文本通常會導致性能下降。

為了克服這一挑戰,現有方法依靠特定模態的數據進行監督微調,這需要不同的模型實例。我們提出了 Slide-LoRA,它動態地聚合了特定模態和模態無關的 LoRA 專家,部分解耦了多模態生成空間。Slide-LoRA 在單一模型實例中協調視覺和語言的生成,從而促進了更統一的生成過程。此外,我們開發了一個高質量的圖像標題數據集 DetailedTextCaps-100K,并與復雜的閉源 MLLM 合成,以進一步增強視覺文本生成能力。在各種基準上進行的全面實驗證明了所提出方法的有效性。

在 Slide-LoRA 的支持下,TextHarmony 僅增加了 2% 的參數,就實現了與特定模態微調結果相當的性能,并且在視覺文本理解任務中平均提高了 2.5%,在視覺文本生成任務中平均提高了 4.0%。我們的工作描述了在視覺文本領域內采用集成方法進行多模態生成的可行性,為后續研究奠定了基礎。

方法

圖片TextHarmony 的管道。TextHarmony 通過連接視覺編碼器、LLM 和圖像解碼器來生成文本和視覺內容。提出的 Slide-LoRA 模塊通過部分分離參數空間來緩解多模式生成中的不一致問題。

實驗

圖片可視化文本生成結果。

圖片可視化文本編輯結果。

圖片DetailedTextCaps-100K 的更多示例。

圖片TextHarmony 視覺文本理解和感知能力的可視化。

結論

TextHarmony是一種多功能多模態生成模型,擅長協調視覺文本理解和生成的不同任務。利用所提出的 Slide-LoRA 機制,TextHarmony 在單一模型實例中同步視覺和語言模態的生成過程,有效地解決了不同模態之間固有的不一致問題。該模型架構擅長執行涉及處理和生成圖像、蒙版、文本和布局的任務,特別是在光學字符識別 (OCR) 和文檔分析領域。TextHarmony 的成就預示著在視覺文本領域內綜合多模態生成模型的巨大潛力。TextHarmony 的適應性表明,類似性質的模型可以有效地應用于各種應用程序,為依賴視覺文本理解和生成復雜相互作用的行業帶來革命性的前景。

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2024-10-21 11:05:00

2025-03-04 09:50:00

2023-06-06 14:09:32

模型開源

2023-07-17 11:02:36

模型開源

2024-12-18 09:34:13

2025-02-12 13:31:33

2025-05-14 08:51:00

2025-05-27 15:59:41

AI工具模型

2025-06-13 08:45:00

數據模型可視化

2023-12-25 13:24:00

模型OCR頁面

2025-06-09 08:50:00

2023-12-04 13:23:00

數據訓練

2023-07-30 16:05:44

多模態學習框架自然語言

2024-04-08 12:19:19

AI數據

2025-03-12 13:09:16

2024-03-21 14:18:00

模型感知

2023-06-05 10:09:03

研究人工智能

2024-03-25 12:40:19

訓練模型

2025-01-08 08:21:16

2024-12-12 00:25:09

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区高清在线 | 国产亚洲一区二区三区在线观看 | 成人免费久久 | 一级在线毛片 | 91 久久| 免费成人高清在线视频 | 亚洲中午字幕 | 欧美激情一区二区三级高清视频 | 欧美激情一区二区 | 四虎最新 | 亚洲国产精品自拍 | 狠狠躁18三区二区一区 | 桃花av在线 | 日本三级电影在线看 | 亚洲欧美日韩在线不卡 | 免费黄色在线观看 | 久久99精品久久久 | 亚洲一二三区在线观看 | 国产精品免费在线 | 国产精品视频一区二区三区 | 国产精品久久久久久久久久久久冷 | 久久不射电影网 | 五月综合激情在线 | 亚洲人成在线播放 | 日韩在线不卡视频 | 成人免费在线电影 | 伊人伊人伊人 | 久久久久亚洲视频 | 欧美国产日韩在线 | 狠狠综合久久av一区二区小说 | 91成人免费看片 | 午夜a级理论片915影院 | 在线观看成人小视频 | 成人在线免费网站 | 久久亚洲一区 | 日一区二区 | 久久久久av | 中文在线а√在线8 | 免费高潮视频95在线观看网站 | 成人av电影在线观看 | 一区二区三区在线 |