英偉達華人硬核AI神器，「描述一切」秒變細節狂魔！僅3B逆襲GPT-4o

2025-04-27 09:54:48

人工智能新聞

視覺AI終極突破來了！英偉達等機構推出超強多模態模型DAM，僅3B參數，就能精準描述圖像和視頻中的任何細節。

有了AI，誰還愿意用手配「字幕」？

剛剛，英偉達聯手UC伯克利、UCSF團隊祭出首個神級多模態模型——Describe Anything Model（DAM），僅3B參數。

論文地址：https://arxiv.org/pdf/2504.16072

正如其名Describe Anything，上傳一張圖，圈哪點哪，它即可生成一段豐富的文字描述。

即便是一段視頻，DAM也能精準捕捉到白色SUV，給出詳細的描述。

DAM是一個專為詳細局部標注（DLC）而設計的模型，即為特定區域生成詳細且精確的描述。

通過兩大創新，研究人員在細節與上下文之間找到平衡：

· 焦點提示：對目標區域進行高分辨率編碼，就像給模型配備了一副「放大鏡」，清晰捕捉到局部區域細微特征

· 局部視覺骨干網絡：將精確定位的特定區域，與上下文無縫整合

換句話說，DAM不僅能放大細節看，還能放眼全局看，無論是靜態圖，還是動態視頻，都能做到游刃有余。

網友驚嘆道，「終極視覺AI突破」！

AI用「放大鏡」看世界

在項目主頁中，英偉達等研究團隊放出了更多精彩demo。任何人通過點、框、涂鴉或掩碼的交互，即可一鍵生成描述。

上傳一張柯基在草地上歡快奔跑的圖，選中柯基，讓DAM去描述：

一只中等體型的狗，擁有濃密的紅棕色毛發，腹部和腿部為白色。這只狗尾巴蓬松，耳朵尖立，戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒，舌頭伸在外面。狗呈奔跑姿勢，前腿向前伸展，后腿向后伸直。

一只被擠到犄角旮旯的貓星人，DAM是這樣配文的，「一只白貓，耳朵呈淺橙色，鼻子是粉色的。貓咪表情放松，眼睛微微閉著，全身覆蓋著柔軟的白毛」。

再比如，隨手涂鴉一棟高樓，DAM可以不斷放大細節，給出這幢樓更細致的描述：

一座現代風格的摩天大樓，采用流線型矩形設計，外立面排列著間距均勻的豎向條形窗。建筑呈階梯式結構，每一層段都比下層略微內縮，形成錯落有致的退臺造型。建筑幕墻主要由反光玻璃面板構成，整體呈現出極具現代感的拋光效果。

甚至，DAM看著視頻中的一頭牛，就能直出一篇經典「小作文」：

一幅描繪棕褐色奶牛的動態序列圖：這頭毛色濃密的奶牛臀部帶有淺色斑塊，初始畫面中它微微低頭，透著安詳的神態。隨著動作展開，奶牛開始穩步前行，四肢舒展著節奏分明的步態，尾梢的簇毛隨每一步輕擺，為行進增添流暢韻律。它始終保持挺拔的站姿，略微弓起的背部線條透出放松狀態，肌肉結實的腿部穩健地向前邁進。整個運動過程中，奶牛保持著均勻從容的步調，每一個動作都流暢而不迫，展現出寧靜自若的生命姿態。

DAM如此厲害，是如何做到的？