成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

HuggingFace教你怎樣做出SOTA視覺模型

人工智能
從收集階段開始,就應注意要選擇多種類型的數據,如Idefics2就使用的數據就包括三類——圖文對齊的文檔(如網頁)、圖像-文本對(如圖片標題),以及帶OCR標注的PDF文檔。

前有OpenAI的GPT-4o,后有谷歌的系列王炸,先進的多模態大模型接連炸場。

其他從業者在震撼之余,也再次開始思考怎么追趕這些超級模型了。

剛好在這時,HuggingFace和法國索邦大學的一篇論文,總結出了構建視覺大模型的關鍵經驗,給開發者指明了一條路。

圖片圖片

這些經驗涵蓋了模型架構選擇、訓練方法、訓練數據等多個方面,作者在多方比較之后給出了詳盡的總結,核心要點包括這些內容:

  • 想把視覺大模型搞好,架構的選擇很重要。
  • 語言模型對整體表現的影響,比視覺模塊更大。
  • 采用分階段預訓練策略,更有利于構建模型能力。
  • 訓練數據應包含多種類型,并注意之間的比例平衡。

可以說,HF能夠打造出同規模SOTA的視覺模型Idefics2,背后依靠的都是這些經驗。

Idefics2基于Mistral-7B打造,整體擁有8B的參數量,可以準確識別出手寫字體。

圖片圖片

專業人士評價稱,這是一篇很好的調查報告,對視覺模型開發者很有幫助,不過同時也提醒說不要當成萬金油來看。

圖片圖片

當然也有人打趣說,什么架構數據都是浮云,有GPU才是最關鍵的。

圖片圖片

倒也有些道理,不過玩笑歸玩笑,還是來看看HuggingFace都帶給了我們哪些經驗。

來自SOTA模型開發實戰

HuggingFace論文中的這些經驗,來自于視覺模型Idefics2的開發過程。

與前一代Idefics1和Flamingo等同規模前SOTA相比,Idefics2在多個數據集上表現優異,甚至還超過了更大的13B模型。

同時,和在COCO數據集上略勝于Idefics2的MM1相比,Idefics2在每張圖上消耗的token大幅減少。

圖片圖片

從Idefics2的開發實戰當中,HuggingFace給我們帶來的經驗至少包含以下幾個方面:

  • backbone和架構的選擇
  • 訓練方法和策略
  • 數據多樣性和處理策略

語言模型對整體表現影響更大

當前的視覺大模型主要都采用語言模型+視覺編碼器的形式進行開發,作者對二者給整體表現帶來的影響分別進行了評估。

結果顯示,語言模型的質量比視覺模型更重要。

在相同參數量的情況下,使用更好的語言模型(如將Llama-7B替換為Mistral-7B),能夠顯著提升視覺大模型在下游任務上的性能。

而升級視覺編碼器帶來的提升則較為有限,因此在需要權衡時最好的做法是優先選擇更強的語言模型。

圖片圖片

當然這不意味著升級視覺編碼器沒有作用,在條件允許的情況下,選用更好的視覺編碼器也能帶來一定的性能提升。

此外還應當注意選擇要與下游任務相匹配,例如在文本識別任務上,應使用支持可變分辨率的視覺編碼器;如果任務對推理速度要求很高,可以選擇更輕量級的模型。

以及在實際應用中,推理速度和內存占用也是需要權衡的因素,Idefics2選用的SigLIP-SO400M就在性能和效率之間取得了很好的平衡。

根據需求選擇架構類型

關于架構的選擇,這篇論文討論了常見的完全自回歸和交叉注意力這兩種。

完全自回歸架構通過自回歸方式生成每個輸出,考慮了整個序列的依賴關系;

后者則允許模型在處理一種模態時動態地關注另一種模態的不同部分,實現更靈活的模態間交互。

在具體工作中,作者發現哪種架構表現更好取決于預訓練的backbone是否被凍結。

(簡單說,若預訓練backbone參與正式訓練過程則為非凍結,不參與則為凍結)

若未被凍結,則完全自回歸架構的表現更優,反之則是交叉注意力架構更好。

圖片圖片

至于是否需要對backbone進行凍結,就要看開發者需求的側重點了。

在資源有限的條件下,如果需要高性能、對延遲高度敏感,選擇凍結更為合適;

如果希望模型具有更高的靈活性和適應性,則應選擇非凍結的訓練方式。

具體到Idefics2,選擇了不凍結backbone,因此相應地采用了完全自回歸架構。

圖片圖片

訓練階段的經驗

選擇好適當的架構固然重要,訓練過程同樣也必不可少,在Idefics2的訓練過程之中,作者總結出了這些經驗供我們參考:

一是整體上采用分階段的預訓練策略,初始階段使用較低分辨率的圖像,隨后引入更高分辨率的PDF文檔,這種做法可以逐步構建模型的多種能力。

二是使用Learned Pooling替代直接將圖像特征送入語言模型,這可以大幅減少圖像token數量,顯著提升訓練和推理效率,并且還帶來了性能的提升。

三是數據增強,一種方法是在訓練時將圖像切分成多個子圖像送入模型,可以在推理時用計算時間換取更強的性能,這在文本識別等任務上尤為有效,不過并非所有圖片都需要這樣處理。

四是在指令微調階段使用更多元的數據和任務,可以提升模型的泛化和魯棒性。

此外為了穩定訓練,當預訓練的單模態backbone參與訓練(非凍結)時,作者還使用了LoRA技術來適配預訓練參數。

數據的多樣性和處理策略

除了訓練過程本身,所選用的數據也會對模型的表現造成重大影響。

從收集階段開始,就應注意要選擇多種類型的數據,如Idefics2就使用的數據就包括三類——圖文對齊的文檔(如網頁)、圖像-文本對(如圖片標題),以及帶OCR標注的PDF文檔。

對于各類數據所占的比例,也應根據實際需要進行適當平衡,而不是簡單等分。

至于數據規模,則是在條件允許的情況下多多益善,當然應當注意過濾掉低質量數據。

當然收集只是獲得訓練數據的一個步驟,想把模型訓練好,還需要進行一定的加工處理。

對不同類型的數據采用不同的預處理和增強策略,比如對于OCR數據,使用更高分辨率的圖片是必要的,其他數據則可以使用較低分辨率。

這其中需要注意的是,處理圖像時要保留原始的寬高比和分辨率,可以在提高模型適應性的同時大幅節省訓練和推理的計算開銷。

如果你認為這些經驗對你有所啟發,可以讀讀原論文了解更多詳情,也歡迎在評論區交流你的開發經驗。

論文地址:https://arxiv.org/abs/2405.02246

責任編輯:武曉燕 來源: 量子位
相關推薦

2022-12-06 14:11:32

開源模型

2025-01-22 10:15:00

2011-11-07 09:33:43

云計算ITCIO

2025-01-26 11:00:00

2013-09-10 10:20:12

數據大數據大數據應用

2024-07-26 00:06:53

2023-11-23 13:24:54

AI模型

2023-02-23 17:51:03

亞馬遜云科技AI

2023-06-21 13:20:14

系統模型

2023-05-16 13:54:00

模型AI

2019-11-20 12:30:21

Python編程語言語音識別

2024-08-19 08:45:00

開源模型

2024-09-14 08:54:38

2025-02-21 13:00:00

2023-03-01 15:43:49

2025-04-17 07:23:10

2023-01-05 09:33:37

視覺模型訓練

2021-07-24 10:19:14

AI 數據克隆
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产不卡一区二区三区 | 国产精品国产自产拍高清 | 黄色片在线看 | 亚洲精品乱码久久久久久蜜桃 | 色综合欧美 | 日本中文字幕日韩精品免费 | 亚洲一区二区综合 | 久久综合99 | 91视频一88av | 国产一区二区在线免费观看 | 老司机精品福利视频 | 人人干在线| 久久久精品 | 日韩一级精品视频在线观看 | 自拍视频精品 | 国产精品久久久久久久久久久久久 | 亚洲视频 欧美视频 | 2019天天操 | 91免费视频 | 在线观看日韩精品视频 | 久久国产亚洲精品 | 日韩美女在线看免费观看 | 亚洲精品日韩在线 | 日韩一二三区视频 | 中文字幕 亚洲一区 | 一区二区免费高清视频 | 欧区一欧区二欧区三免费 | 国产免费一区二区三区 | 免费在线视频一区二区 | 九九热精品免费 | 国产乱码精品一区二三赶尸艳谈 | 久草高清视频 | 二区三区在线观看 | 亚洲欧美综合精品久久成人 | 国内精品视频免费观看 | 日韩欧美一区二区三区免费观看 | www.久久| 国产丝袜一区二区三区免费视频 | 中文字幕乱码视频32 | 国产成人一区二区三区 | 亚洲第一av网站 |