成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達華人硬核AI神器,「描述一切」秒變細節狂魔!僅3B逆襲GPT-4o

人工智能 新聞
視覺AI終極突破來了!英偉達等機構推出超強多模態模型DAM,僅3B參數,就能精準描述圖像和視頻中的任何細節。

有了AI,誰還愿意用手配「字幕」?

剛剛,英偉達聯手UC伯克利、UCSF團隊祭出首個神級多模態模型——Describe Anything Model(DAM),僅3B參數。

圖片

論文地址:https://arxiv.org/pdf/2504.16072

正如其名Describe Anything,上傳一張圖,圈哪點哪,它即可生成一段豐富的文字描述。

圖片

即便是一段視頻,DAM也能精準捕捉到白色SUV,給出詳細的描述。

圖片

DAM是一個專為詳細局部標注(DLC)而設計的模型,即為特定區域生成詳細且精確的描述。

通過兩大創新,研究人員在細節與上下文之間找到平衡:

· 焦點提示:對目標區域進行高分辨率編碼,就像給模型配備了一副「放大鏡」,清晰捕捉到局部區域細微特征

· 局部視覺骨干網絡:將精確定位的特定區域,與上下文無縫整合

換句話說,DAM不僅能放大細節看,還能放眼全局看,無論是靜態圖,還是動態視頻,都能做到游刃有余。

網友驚嘆道,「終極視覺AI突破」!

圖片

AI用「放大鏡」看世界

在項目主頁中,英偉達等研究團隊放出了更多精彩demo。任何人通過點、框、涂鴉或掩碼的交互,即可一鍵生成描述。

上傳一張柯基在草地上歡快奔跑的圖,選中柯基,讓DAM去描述:

一只中等體型的狗,擁有濃密的紅棕色毛發,腹部和腿部為白色。這只狗尾巴蓬松,耳朵尖立,戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒,舌頭伸在外面。狗呈奔跑姿勢,前腿向前伸展,后腿向后伸直。

圖片

一只被擠到犄角旮旯的貓星人,DAM是這樣配文的,「一只白貓,耳朵呈淺橙色,鼻子是粉色的。貓咪表情放松,眼睛微微閉著,全身覆蓋著柔軟的白毛」。

圖片

再比如,隨手涂鴉一棟高樓,DAM可以不斷放大細節,給出這幢樓更細致的描述:

一座現代風格的摩天大樓,采用流線型矩形設計,外立面排列著間距均勻的豎向條形窗。建筑呈階梯式結構,每一層段都比下層略微內縮,形成錯落有致的退臺造型。建筑幕墻主要由反光玻璃面板構成,整體呈現出極具現代感的拋光效果。


圖片

甚至,DAM看著視頻中的一頭牛,就能直出一篇經典「小作文」:

圖片

一幅描繪棕褐色奶牛的動態序列圖:這頭毛色濃密的奶牛臀部帶有淺色斑塊,初始畫面中它微微低頭,透著安詳的神態。隨著動作展開,奶牛開始穩步前行,四肢舒展著節奏分明的步態,尾梢的簇毛隨每一步輕擺,為行進增添流暢韻律。它始終保持挺拔的站姿,略微弓起的背部線條透出放松狀態,肌肉結實的腿部穩健地向前邁進。整個運動過程中,奶牛保持著均勻從容的步調,每一個動作都流暢而不迫,展現出寧靜自若的生命姿態。

DAM如此厲害,是如何做到的?

DAM技術架構,精準捕捉細節

與傳統圖像描述(概括整個場景)不同,DLC聚焦于用戶指定的局部區域,來生成細致入微的描述。

想象一張照片中一只貓,你不僅需要描述「一只貓在窗臺上」,還要深入些幾「貓的毛發呈現柔軟和灰色條紋,耳朵微微傾斜,眼睛在陽光下閃著琥珀色的光芒」。

圖片

可以看出,DLC的目標是捕捉區域的紋理、顏色、形狀、顯著部件等特征,同時也要保持與整體場景關聯。

而在視頻領域中,DLC挑戰更大。

模型需要追目標區域在多個幀中的變化,描述其外觀、交互、和細微動態的演變。

為了應對DLC復雜需求,Describe Anything Model引入了兩大核心創新,讓局部細節與全局上下文完美平衡。

焦點提示(Focal Prompt)

通過「焦點提示」機制,DAM能夠同時處理全圖和目標區域的放大視圖。

這確保它在捕捉細微特征同時,不丟失整體場景的背景信息。

圖片

局部視覺骨干網絡(Localized Vision Backbone)

DAM的視覺骨干網絡通過空間對齊的圖像和掩碼,融合全局與局部特征。

利用門控交叉注意力層,模型將詳細的局部線索與全局上下文無縫整合。

新參數初始化為0,保留了預訓練能力,從而生成更豐富、更具上下文關聯的描述。

圖片

這種架構讓DAM在生成關鍵詞、短語,甚至是多句式的復雜描述時,都能保持高精度和連貫性。

DLC-SDP:破解數據瓶頸

要知道,高質量的DLC數據集極為稀缺,限制了模型的訓練。為此,研究團隊設計了基于半監督學習的流水線(DLC-SDP),通過兩階段策略構建大規模訓練數據。

階段一,是從分割數據集擴展。利用現有分割數據集短標簽(貓),通過視覺-語言模型生成豐富的描述(灰色短毛貓,耳朵直立。

階段二,自訓練未標記的圖像,通過半監督學習,DAM對未標記的網絡圖像生成初始描述,并迭代精煉,形成高質量的DLC數據。

圖片

DLC-Bench:重定義評估標準

那么,如何公平地評估DLC模型。

傳統方法主要依賴文本重疊,但這無法全面反映描述的準確性和細節。

為此,研究團隊提出了全新基準DLC-Bench。通過LLM判斷,檢查描述的正確細節和錯誤缺失,而非簡單對比文本。

圖片

DAM僅能生成詳細描述,還具備強大的靈活性和交互性。

指令控制描述

你可以根據需求調整描述的詳細程度和風格。

圖片

零樣本區域問答

而且,無需額外訓練,DAM就能回答關于特定區域的問題。

圖片

碾壓GPT-4o,刷新SOTA

在DLC-Bench和其他7個涵蓋圖像與視頻的基準測試中,DAM全面超越現有模型,樹立了新的標桿。

如下表2所示,DAM在具有挑戰性的 PACO 基準測試中表現出色,創下了89高分。

而在零樣本評估在短語級數據集Flickr30k Entities上,新模型相比之前的最佳結果平均相對提升了7.34%。

此外,零樣本評估在詳細描述數據Ref-L4 上,DAM在基于短/長語言的描述指標上分別實現了39.5%和13.1%的平均相對提升。

圖片

在研究人員提出的DLC-Bench測試中,DAM在詳細局部描述方面優于之前的僅API模型、開源模型和特定區域VLM。

圖片

下表6所示,DAM在詳細局部視頻字幕方面刷新SOTA。

圖片

總而言之,DAM的優勢主要有三大點:更詳細、更準確;更少幻覺;多場景適用。

它的強大能力為眾多應用場景打開了大門,未來諸如數據標注、醫療影像、內容創作等領域,都可以加速落地。

圖片

作者介紹

Long (Tony) Lian

圖片

Long (Tony) Lian目前是UC伯克利電子工程與計算機科學博士研究生,師從Adam Yala教授和Trevor Darrell教授。

他的研究主要聚焦于,通過強化學習(RL)開發具備推理能力的大模型(LLM)與視覺語言模型(VLM)。

此前,他曾在英偉達研究院Deep Imagination Research團隊實習。

Long (Tony) Lian本科畢業于UC伯克利計算機科學專業,師從Stella Yu教授。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-04-27 08:30:00

2024-05-30 12:50:05

2024-10-17 13:30:00

2024-05-21 09:16:14

微軟AI

2025-06-25 09:14:00

2024-05-21 12:23:17

2024-10-17 14:05:34

2025-01-02 13:00:00

2025-04-15 09:19:00

模型AI數據

2024-07-09 12:54:57

2024-06-05 08:29:35

2024-08-05 08:46:00

模型測評

2024-08-14 09:13:28

2024-07-26 13:33:55

2024-05-17 17:25:44

2024-11-06 15:20:00

2024-11-22 14:10:00

AI智能體

2025-04-11 09:10:00

模型開源AI

2024-08-13 13:50:00

數據模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91久久国产 | 精品欧美一区二区三区久久久 | 亚洲一区 中文字幕 | 久久久综合 | 日韩三级免费网站 | 成人精品在线视频 | 欧美精品一二三区 | 污视频在线免费观看 | 一区二区在线视频 | 天堂一区二区三区 | 亚洲成人黄色 | 亚洲免费在线 | 亚洲午夜视频在线观看 | 欧美日韩成人影院 | 欧美成人免费在线视频 | 一区二区三区日 | 日韩激情视频一区 | 在线国产一区 | 国内精品免费久久久久软件老师 | 精品国产18久久久久久二百 | 亚洲欧美第一视频 | 国产成人叼嘿视频在线观看 | 国产高清在线精品 | 一级国产精品一级国产精品片 | 台湾佬成人网 | 91xxx在线观看 | 欧美国产激情二区三区 | 九九九久久国产免费 | 日韩免费网站 | 成人免费淫片aa视频免费 | 欧美日韩亚洲在线 | 国产精品一区三区 | 综合久久久久 | 日韩一区二区三区视频 | 久久久久国产精品一区二区 | 祝你幸福电影在线观看 | 色综合一区二区 | 在线91| 亚洲精品欧美一区二区三区 | 亚洲视频中文字幕 | 久久另类 |