成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

我的眼睛就是尺!80億參數OtterHD帶你「清明上河圖」數駱駝!南洋理工華人團隊打造

人工智能 新聞
基于Fuyu-8B的創新架構,研究團隊提出的OtterHD-8B模型能有效處理各種分辨率的圖像,擺脫了大多數LMM中固定分辨率輸入的限制。

想知道《清明上河圖》里面有多少頭駱駝嗎?來看看這個支持超高清輸入的多模態模型吧。

最近,來自南洋理工的華人團隊基于Fuyu-8B打造出了80億參數的多模態大模型OtterHD。

圖片

論文地址:https://arxiv.org/abs/2311.04219

與受限于固定尺寸視覺編碼器的傳統模型不同,OtterHD-8B具有處理靈活輸入尺寸的能力,確保了其在各種推理需求下的通用性。

同時,團隊還提出了一個全新的基準測試MagnifierBench,可以細致地評測LLM辨別大尺寸圖像中物體的微小細節和空間關系的能力。

結果顯示,OtterHD-8B的表現,尤其是在直接處理高分辨率輸入時,遠遠優于同類模型。

圖片

效果演示

如下圖中,詢問清明上河圖(局部)中有多少只駱駝,圖片輸入達到了2446x1766像素,模型也能成功對答。

圖片

面對曾讓GPT4-V發愁的數蘋果問題,模型也成功的數出了其中包含11個蘋果。

圖片


除了論文中展示的高清輸入的例子,我們也進行了一些測試,下圖我們讓模型假設用戶是一個劍橋大學的PhD,解釋這個圖是什么意思。

其中模型的回答中準確的識別出圖片中的Black Hole和White Hole等信息,并且識別出其是一個tunnel-like structure,然后給出了詳細的解釋。

圖片

下圖中,讓模型解釋圖中關于能源占比的情況,模型準確識別了圖中的幾類能源以及其占比隨時間變化的情況。

圖片

下圖關于換燈泡的流程圖,模型準確理解了流程圖的含義并且給出了一步一步的詳細指導。

圖片

80億參數指令微調OtterHD-8B

值得注意的是,基于Fuyu-8B的OtterHD-8B是第一個在最大1024×1024輸入上進行訓練的開源指令微調大語言模型。

此外,在推理過程中,它還能進一步擴展到更大的分辨率(如1440×1440)。

訓練細節

在初步實驗中團隊發現,Fuyu在響應某些基準測試中的特定指令時表現不佳,這導致模型在MME和MMBench上的性能非常弱。

為了解決這些問題,團隊基于370K條混合數據對Fuyu模型進行指令微調,并參考 LLaVA-1.5使用了相似的指令模板來規范模型回答的格式。

在訓練階段,所有數據集都被組織成指令/應答對,匯總到統一的 dataloader中,并進行統一采樣,以確保代表性的完整性。

為了增強建模代碼,團隊使用了FlashAttention-2和FlashAttention資源庫中的算子融合技術。

得益于Fuyu簡化的架構,如圖2所示,這些修改大大提高了GPU的利用率和吞吐量。

圖片

具體來說,團隊提出的方法可以在8×A100 GPU上以3小時/epoch的速度完成全參數訓練,而LoRA微調后每epoch只需1小時。

在使用AdamW優化器訓練模型時,批大小為64,學習率設置為1×10^-5,權重衰減為0.1。

超精細評測基準MagnifierBench

人類視覺系統可以自然地感知視野內物體的細節,但目前用于測試LMM的基準并沒有特別側重于評估這方面的能力。

隨著Fuyu和OtterHD模型的出現,我們第一次將輸入圖像的分辨率擴展到了更大的范圍。

為此,團隊基于Panoptic Scene Graph Generation(PVSG)數據集,制作了一個涵蓋166幅圖像共283組問題的全新測試基準MagnifierBench。

PVSG數據集由視頻數據組成,其中包含大量雜亂無章的復雜場景,尤其是第一人稱的家務視頻。

在標注階段,團隊仔細檢查了數據集中的每個問題-答案對,剔除了那些涉及大型物體,或者很容易用常識性知識回答的問題。例如,遙控器大多都是黑的,很容易猜到,而紅黃等顏色則不在此列。

如圖3所示,MagnifierBench設計的問題類型包括識別、數字、顏色相關問題等。該數據集的一個重要標準是,問題必須足夠復雜,就連標注者都必須在全屏模式下,甚至放大圖像才能準確回答。

圖片

與簡短的回答相比,LMM更擅長在對話環境中生成擴展的回答。

- 多選題

這里模型面對的是一個問題和多個答案選項。為了引導模型以單個字母(如 A、B、C)作答,團隊在指令「答案」前直接加上給定選項中的字母作為問題前的提示。在這種情況下,只有完全符合正確選項的答案才被視為準確答案。

- 開放題

多個選項會簡化任務,因為隨機猜測有25%的正確率。此外,這并不能反映聊天助手所面臨的真實場景,因為用戶通常不會向模型提供預定義的選項。為了消除這種潛在的偏差,團隊還以直截了當、不設任何提示選項的開放式方式向模型提出問題。

實驗分析

研究結果表明,雖然很多模型在MME和POPE等既定基準上取得了高分,但它們在MagnifierBench上的表現卻往往不盡如人意。另一方面,OtterHD-8B在MagnifierBench上表現出色。

為了進一步探索提高分辨率的效果以及OtterHD對不同、可能更大分辨率的泛化能力,團隊使用固定或動態分辨率對Otter8B進行了訓練。

x軸表明,隨著分辨率的提高,會有更多的圖像token被發送到語言解碼器,從而提供了更多的圖像細節。

圖片

結果表明,分辨率越高,MagnifierBench的性能越好。

由于平均文本token數保持不變,因此隨著分辨率的增加,圖像與文本token數的比例也逐漸增大。

這一變化突出了LMM分辨率的重要性,尤其是對于需要復雜視覺關聯的任務。

圖片

此外,固定訓練方法和動態訓練方法之間的性能差異凸顯了動態調整大小的優勢,尤其是防止特定分辨率的過擬合。

而且,動態策略還可以讓模型泛化到訓練期間未見的更大分辨率(1440)。

一些對比

圖片

圖片

圖片

圖片

結論

基于Fuyu-8B的創新架構,研究團隊提出的OtterHD-8B模型能有效處理各種分辨率的圖像,擺脫了大多數LMM中固定分辨率輸入的限制。

與此同時,OtterHD-8B在處理高分辨率圖像方面的表現格外出色。

這一點在新的MagnifierBench基準測試中尤為明顯,該基準的目的是評估LMM在復雜場景中辨別細節的能力,突出了對不同分辨率更加靈活的支持的重要性。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-06 12:57:11

AI訓練

2023-07-09 15:28:52

圖片AI

2018-09-20 15:21:41

螞蟻金服支付寶

2023-04-27 09:27:44

視頻AI

2020-01-07 14:44:09

GitHub代碼開發者

2014-04-21 16:40:39

創業創業文化

2016-08-08 10:06:50

天融信收購南洋股份

2024-10-23 08:24:13

2024-06-24 13:35:58

2025-06-03 08:44:00

2012-07-12 15:08:59

WebGL

2019-01-16 23:58:06

曠視科技機器人

2023-10-07 13:43:00

AI訓練

2023-05-10 15:30:34

自動駕駛

2014-01-02 14:04:42

2023-03-10 13:56:42

ChatGPT

2025-06-23 09:01:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 高清久久 | 一区二区精品视频 | 国产三级在线观看播放 | 国产欧美日韩一区 | 九七午夜剧场福利写真 | 中文字幕在线电影观看 | 毛片免费看的 | 日韩精品在线网站 | 国产精品日韩在线观看 | 亚洲国产视频一区 | 成人精品福利 | 欧美三级电影在线播放 | 毛片网站在线观看 | 精品欧美乱码久久久久久 | 免费在线精品视频 | 久久精品国产一区 | 在线欧美一区 | 亚洲狠狠爱 | 日日射影院 | 中文亚洲视频 | 欧美6一10sex性hd | 日韩在线播放一区 | 久草欧美| 一区二区三区四区五区在线视频 | 在线超碰| 天天插天天操 | 成人做爰www免费看视频网站 | 日韩电影免费在线观看中文字幕 | 亚洲国产高清高潮精品美女 | 午夜影院视频在线观看 | 在线观看国产视频 | 亚洲国产成人久久综合一区,久久久国产99 | 在线观看免费国产 | 做a网站| 欧美一级在线免费 | 久久国产精品久久久久久 | 日韩成人免费视频 | 久久精品 | 亚洲一区国产精品 | 成人av鲁丝片一区二区小说 | 正在播放国产精品 |