英偉達提出最強「描述一切」模型 (DAM),可生成圖像或視頻特定區域的詳細描述,拿下7個基準SOTA!
英偉達提出「描述一切」模型 (DAM),這是一個強大的多模態大型語言模型,可以生成圖像或視頻中特定區域的詳細描述。用戶可以使用點、框、涂鴉或蒙版來指定區域,DAM 將提供這些區域的豐富且符合上下文的描述。
相關鏈接
- 論文:https://arxiv.org/pdf/2504.16072
- 主頁:https://describe-anything.github.io
- 試用:https://huggingface.co/spaces/nvidia/describe-anything-model-demo
論文介紹
描述任何事物:詳細的本地化圖像和視頻字幕
詳細本地化字幕 (DLC)
詳細局部字幕 (DLC) 的任務是生成圖像中特定區域的全面且情境感知的描述。與傳統的圖像字幕(僅粗略概括整個場景)不同,DLC 會深入挖掘用戶指定區域的更精細細節。其目標不僅在于捕捉物體的名稱或類別,還在于捕捉細微的屬性,例如紋理、顏色模式、形狀、顯著部分以及任何視覺上獨特的特征。DLC 可以自然地擴展到視頻,描述特定區域的外觀和上下文如何隨時間變化。模型必須跨幀跟蹤目標,捕捉不斷變化的屬性、交互和細微的變化。
高度詳細的圖像和視頻字幕
該方法擅長生成圖像和視頻中物體的詳細描述。通過平衡焦點區域的清晰度和全局上下文,該模型可以突出細微的特征(例如復雜的圖案或變化的紋理),這遠遠超出了一般圖像級字幕所能提供的范圍。
指令控制的字幕
用戶可以引導我們的模型生成不同細節和風格的描述。無論是簡短的摘要,還是冗長復雜的敘述,模型都能調整輸出。這種靈活性使其適用于各種用例,從快速標記任務到深入的專家分析。
零樣本區域 QA
除了描述之外,我們的模型無需額外的訓練數據即可回答有關特定區域的問題。用戶可以詢問該區域的屬性,模型會利用其對本地區域的理解,提供準確的、基于情境的答案。此功能增強了自然、交互式的用例。
描述任何事物模型 (DAM) 的架構
架構采用“焦點提示”技術,提供完整圖像和目標區域的放大視圖。這種方法確保模型能夠捕捉精細細節,同時保留全局背景。最終呈現的字幕細致準確,既能反映全局,又能捕捉細微之處。
該方法引入了一個集成全局特征和焦點特征的局部視覺主干網絡。圖像和掩碼在空間上對齊,門控交叉注意力層將局部細節線索與全局上下文融合。新參數初始化為零,保留預先訓練的能力。這種設計能夠產生更豐富、更具有上下文感知能力的描述。
用于詳細本地化字幕的半監督數據管道(DLC-SDP)
由于現有數據集缺乏詳細的局部描述,我們設計了一個兩階段流程。首先,我們使用可變長度語言 (VLM) 將分割數據集中的短類標簽擴展為豐富的描述。其次,我們將自訓練作為一種半監督學習的形式應用于未標記圖像,使用我們的模型生成和優化新的標題。這種可擴展的方法無需依賴大量的人工注釋即可構建大量高質量的訓練數據。
DLC-Bench:詳細本地化字幕的基準
我們推出了 DLC-Bench,這是一個使用基于 LLM 的判斷器來評估模型區域描述的基準測試。DLC-Bench 不再依賴簡單的文本重疊,而是檢查細節是否正確以及是否存在錯誤。這為衡量 DLC 性能提供了一個更準確、更人性化的指標。
DAM、DLC-SDP 和 DLC-Bench 的優勢
比較
在 DLC-Bench 上,我們的模型能夠生成更詳細、更準確的局部描述,并減少幻覺,從而超越現有解決方案。它超越了針對一般圖像級任務訓練的模型以及專為局部推理設計的模型,為詳細且語境豐富的字幕生成樹立了新的標準。
結論
“描述任何內容”模型 (DAM)能夠為圖像和視頻中的特定區域生成詳細的描述,可用于各種應用,從數據標注到作為下游任務的中間組件。