成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

抱抱臉團隊(HF)發布多模態大模型Idefics2,8B參數 原創

發布于 2024-4-18 10:35
瀏覽
0收藏

近日,抱抱臉團隊(HF)發布Idefics2,一個通用的多模態大模型,可以接受任意文本和圖像序列作為輸入,并生成文本響應。它可以回答關于圖像的問題,描述視覺內容,創建基于多個圖像的故事,從文檔中提取信息,并執行基本算術運算。Idefics2改進了Idefics1:具有8B參數、開放許可(Apache 2.0)和增強的OCR(光學字符識別)功能,Idefics2是多模態工作社區的堅實基礎。它在視覺問答基準上的表現居于同類模型的前列,并與LLava-Next-34B和MM1-30B-chat等更大的模型競爭。

抱抱臉團隊(HF)發布多模態大模型Idefics2,8B參數-AI.x社區

訓練數據

Idefics2在預訓練過程中使用了一系列公開可用數據集進行訓練:交錯的網頁文檔(維基百科、OBELICS)、圖像-標題對(公共多模態數據集、LAION-COCO)、OCR數據(PDFA(英文)、IDL和渲染文本)以及圖像到代碼數據(WebSight)。交互式可視化允許探索OBELICS數據集。根據基礎模型社區的通行做法,HF進一步對基礎模型進行了面向任務的訓練。然而,這些數據通常是以不同的格式存在,并分散在各個地方。對于社區來說,收集這些數據是一個障礙。為了解決這個問題,HF發布了一直在準備的多模態指令微調數據集:Cauldron,這是一個開放的、由50個手動策劃的數據集的合集,格式化為多輪對話。HF使用The Cauldron和各種文本微調數據集的串聯來對Idefics2進行了指令微調。

改進

  • HF按照NaViT策略處理圖像的原生分辨率(高達980 x 980)和原生寬高比。這樣就避免了將圖像調整為固定大小的正方形的需要,因為這在計算機視覺界一直是歷史性的做法。此外,HF遵循了SPHINX的策略,并(可選地)允許子圖像分割和傳遞非常大分辨率的圖像。
  • 通過整合需要模型轉錄圖像或文檔中的文本的數據,顯著增強了OCR功能。我們還通過適當的訓練數據,改進了在圖表、圖形和文檔上回答問題的能力。
  • 摒棄了Idefics1的架構(門控交叉關注)并簡化了將視覺特征整合到語言骨干中的過程。圖像被輸入到視覺編碼器中,然后是一個學習的Perceiver池化和一個MLP模態投影。然后將這個池化序列與文本嵌入拼接起來,得到一個(交錯的)圖像和文本序列。

所有這些改進加上更好的預訓練骨干,使性能大幅提高,而模型的大小只增加了10倍。

抱抱臉團隊(HF)發布多模態大模型Idefics2,8B參數-AI.x社區

Idefics2體系結構

開始使用Idefics2

Idefics2可在Hugging Face Hub上獲得,并在最新的transformers版本中受支持。

譯自(有刪改):https://huggingface.co/blog/idefics2


本文轉載自公眾號AIGC最前線 

原文鏈接:??https://mp.weixin.qq.com/s/Tdwvl5F4mrQddxZUwZLN_w??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美极品视频 | 黄色大片免费看 | 精品国产乱码久久久久久老虎 | 91国内外精品自在线播放 | 伊人无码高清 | 九九综合| 激情小视频 | 懂色一区二区三区免费观看 | 欧美日产国产成人免费图片 | 一级做a爰片性色毛片视频停止 | 一区二区三区四区在线免费观看 | 欧美精品一区二区三区在线 | 亚洲 欧美 综合 | 久久久爽爽爽美女图片 | 国产福利91精品一区二区三区 | 免费午夜视频 | 亚洲区在线 | 黄色成人亚洲 | 在线观看免费黄色片 | 国产黄a一级 | 亚洲最大的成人网 | 国产剧情一区 | 日韩高清一区二区 | 天天操夜夜操 | 日本超碰 | 精品国产乱码久久久久久蜜退臀 | 欧美群妇大交群中文字幕 | 国产精品美女久久久 | 精品一区二区在线观看 | 国产一级淫片免费视频 | 97精品国产97久久久久久免费 | 亚洲国产精品一区二区三区 | 欧美福利专区 | 欧美中文字幕一区 | 黄色免费看| 成人午夜在线 | 久久久综合精品 | 婷婷精品 | 精品国产一区一区二区三亚瑟 | 国产精品一区二区视频 | 午夜小视频在线播放 |