成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

文檔字越多,模型越興奮!KOSMOS-2.5:閱讀「文本密集圖像」的多模態(tài)大語(yǔ)言模型

人工智能
KOSMOS-2.5在少樣本學(xué)習(xí)和零樣本學(xué)習(xí)的場(chǎng)景中展現(xiàn)了有前景的能力,使其成為處理文本豐富圖像的實(shí)際應(yīng)用的多功能工具。

當(dāng)前一個(gè)顯著的趨勢(shì)是致力于構(gòu)建更大更復(fù)雜的模型,它們擁有數(shù)百/數(shù)千億個(gè)參數(shù),能夠生成令人印象深刻的語(yǔ)言輸出。

然而,現(xiàn)有的大型語(yǔ)言模型主要集中在文本信息上,無(wú)法理解視覺(jué)信息。

因此多模態(tài)大型語(yǔ)言模型(MLLMs)領(lǐng)域的進(jìn)展旨在解決這一限制,MLLMs將視覺(jué)和文本信息融合到一個(gè)基于Transformer的單一模型中,使該模型能夠根據(jù)這兩種模態(tài)學(xué)習(xí)和生成內(nèi)容。

MLLMs在各種實(shí)際應(yīng)用中顯示出潛力,包括自然圖像理解和文本圖像理解。這些模型利用語(yǔ)言建模作為處理多模態(tài)問(wèn)題的通用接口,使其能夠根據(jù)文本和視覺(jué)輸入處理和生成響應(yīng)。

不過(guò),現(xiàn)有的MLLMs主要關(guān)注分辨率較低的自然圖像,對(duì)于文本密集圖像的MLLM研究還不多見(jiàn),因此充分利用大規(guī)模多模態(tài)預(yù)訓(xùn)練來(lái)處理文本圖像是MLLM研究的一個(gè)重要的研究方向。

通過(guò)將文本圖像納入訓(xùn)練過(guò)程并開(kāi)發(fā)基于文本和視覺(jué)信息的模型,我們可以開(kāi)辟涉及高分辨率文本密集圖像的多模態(tài)應(yīng)用的新可能性。

圖片圖片

論文地址:https://arxiv.org/abs/2309.11419

KOSMOS-2.5是一個(gè)基于文本密集圖像的多模態(tài)大型語(yǔ)言模型,它是在KOSMOS-2的基礎(chǔ)上發(fā)展而來(lái)的,突出了對(duì)于文本密集圖像的多模態(tài)閱讀和理解能力(Multimodal Literate Model)。

該模型的提出突顯了其在理解文本密集型圖像方面的卓越性能,彌合了視覺(jué)和文本之間的差距。

與此同時(shí),它也標(biāo)志著該任務(wù)范式的演變,從以前的編碼器-解碼器(encoder-decoder)架構(gòu)轉(zhuǎn)變?yōu)榧兘獯a器(decoder only)架構(gòu)。

KOSMOS-2.5的目標(biāo)是在文本豐富的圖像中實(shí)現(xiàn)無(wú)縫的視覺(jué)和文本數(shù)據(jù)處理,以便理解圖像內(nèi)容并生成結(jié)構(gòu)化文本描述。

圖1:KOSMOS-2.5概覽圖圖1:KOSMOS-2.5概覽圖

如圖1所示,KOSMOS-2.5是一個(gè)多模態(tài)模型,旨在使用統(tǒng)一的框架處理兩個(gè)緊密相關(guān)的任務(wù)。

第一個(gè)任務(wù)涉及生成具有空間感知的文本塊,即同時(shí)生成文本塊的內(nèi)容與坐標(biāo)框;

第二個(gè)任務(wù)涉及以Markdown格式生成結(jié)構(gòu)化的文本輸出,同時(shí)捕捉各種樣式和結(jié)構(gòu)。

圖2:KOSMOS-2.5架構(gòu)圖圖2:KOSMOS-2.5架構(gòu)圖

如圖2所示,兩個(gè)任務(wù)利用共享的Transformer架構(gòu)與任務(wù)特定的提示。

KOSMOS-2.5將基于ViT(Vision Transformer)的視覺(jué)編碼器與基于Transformer架構(gòu)的解碼器相結(jié)合,通過(guò)一個(gè)重采樣模塊連接起來(lái)。

圖3:預(yù)訓(xùn)練數(shù)據(jù)集圖3:預(yù)訓(xùn)練數(shù)據(jù)集

如圖3所示,為了訓(xùn)練這個(gè)模型,作者準(zhǔn)備一個(gè)龐大的共324.4M的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。

圖4:帶有邊界框的文本行的訓(xùn)練樣本示例圖4:帶有邊界框的文本行的訓(xùn)練樣本示例

圖5:Markdown格式的訓(xùn)練樣本示例圖5:Markdown格式的訓(xùn)練樣本示例

該數(shù)據(jù)集包含各種類型的文本密集圖像,其中包括帶有邊界框的文本行和純文本的Markdown格式,圖4和圖5為訓(xùn)練樣本示例可視化。

這種多任務(wù)的訓(xùn)練方法增強(qiáng)了KOSMOS-2.5在整體上的多模態(tài)能力。

[圖6] 端到端的文檔級(jí)文本識(shí)別實(shí)驗(yàn)[圖6] 端到端的文檔級(jí)文本識(shí)別實(shí)驗(yàn)

圖7:從圖像中生成Markdown格式文本實(shí)驗(yàn)圖7:從圖像中生成Markdown格式文本實(shí)驗(yàn)

如圖6和圖7所示,KOSMOS-2.5在兩個(gè)任務(wù)上進(jìn)行評(píng)估:端到端的文檔級(jí)文本識(shí)別和從圖像中生成Markdown格式文本。

實(shí)驗(yàn)結(jié)果展示了KOSMOS-2.5在理解文本密集的圖像任務(wù)方面的出色表現(xiàn)。

圖8:KOSMOS-2.5的輸入和輸出樣例展示圖8:KOSMOS-2.5的輸入和輸出樣例展示

此外,KOSMOS-2.5在少樣本學(xué)習(xí)和零樣本學(xué)習(xí)的場(chǎng)景中展現(xiàn)了有前景的能力,使其成為處理文本豐富圖像的實(shí)際應(yīng)用的多功能工具。

作者指出,指令微調(diào)是一個(gè)很有前景的方法,可以實(shí)現(xiàn)模型更廣泛的應(yīng)用能力。

在更廣泛的研究領(lǐng)域中,一個(gè)重要的方向在于進(jìn)一步發(fā)展模型參數(shù)的擴(kuò)展能力。

隨著任務(wù)范圍的不斷擴(kuò)大和復(fù)雜性的不斷提高,擴(kuò)展模型以處理更大量的數(shù)據(jù)對(duì)于文字密集的多模態(tài)模型的發(fā)展至關(guān)重要。

最終目標(biāo)是開(kāi)發(fā)出一種能有效解釋視覺(jué)和文本數(shù)據(jù)的模型,并在更多文本密集型多模態(tài)任務(wù)中順利推廣。

參考資料:

https://arxiv.org/abs/2309.11419

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-06-27 08:40:00

模型推理AI

2025-01-08 08:21:16

2024-05-17 16:02:00

2021-08-16 15:47:02

AI決策人工智能

2021-08-16 20:45:52

AI人工智能

2024-03-25 12:40:19

訓(xùn)練模型

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-11-22 08:22:58

2024-07-23 10:34:57

2024-04-02 09:17:50

AI數(shù)據(jù)開(kāi)源

2024-09-25 14:53:00

2024-12-12 00:25:09

2025-05-28 03:30:00

AI人工智能大數(shù)據(jù)

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-02-27 01:00:00

大模型OLMOCRrag

2023-10-24 09:53:56

自動(dòng)駕駛模型

2024-11-11 15:11:23

2024-05-10 06:59:06

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: h片在线看| 午夜精品一区二区三区在线观看 | 欧美一级在线观看 | 欧美日韩不卡合集视频 | 国产一区二区三区 | 91av视频| jizz中国日本 | 午夜视频精品 | 91在线综合 | 国产精品一二区 | 亚洲一区久久 | 久久亚洲综合 | h视频在线观看免费 | 欧美精品一区二区三区在线 | 一区二区三区中文字幕 | 国产成人精品久久二区二区91 | 一区二区电影 | 欧美中文字幕在线观看 | 成人免费视屏 | 琪琪午夜伦伦电影福利片 | 久久久久国产精品一区二区 | 亚洲一区二区免费 | 奇米久久久 | 成人不卡在线 | 成人免费视频观看视频 | 伊人久久精品一区二区三区 | 久久新 | 成人在线免费视频 | 欧美性jizz18性欧美 | 一区二区三区国产 | 青青草亚洲 | zzzwww在线看片免费 | 在线精品国产 | 欧美国产日韩精品 | 成人激情视频在线 | 久久国产一区二区 | 在线婷婷 | 成人免费网站视频 | 亚洲免费在线视频 | 国产午夜亚洲精品不卡 | 人人干人人看 |