成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達提出最強「描述一切」模型 (DAM),可生成圖像或視頻特定區域的詳細描述,拿下7個基準SOTA!

人工智能 新聞
“描述任何內容”模型 (DAM)能夠為圖像和視頻中的特定區域生成詳細的描述,可用于各種應用,從數據標注到作為下游任務的中間組件。

英偉達提出「描述一切」模型 (DAM),這是一個強大的多模態大型語言模型,可以生成圖像或視頻中特定區域的詳細描述。用戶可以使用點、框、涂鴉或蒙版來指定區域,DAM 將提供這些區域的豐富且符合上下文的描述。

圖片圖片

相關鏈接

  • 論文:https://arxiv.org/pdf/2504.16072
  • 主頁:https://describe-anything.github.io
  • 試用:https://huggingface.co/spaces/nvidia/describe-anything-model-demo

論文介紹

描述任何事物:詳細的本地化圖像和視頻字幕描述任何事物:詳細的本地化圖像和視頻字幕

詳細本地化字幕 (DLC)

詳細局部字幕 (DLC) 的任務是生成圖像中特定區域的全面且情境感知的描述。與傳統的圖像字幕(僅粗略概括整個場景)不同,DLC 會深入挖掘用戶指定區域的更精細細節。其目標不僅在于捕捉物體的名稱或類別,還在于捕捉細微的屬性,例如紋理、顏色模式、形狀、顯著部分以及任何視覺上獨特的特征。圖片DLC 可以自然地擴展到視頻,描述特定區域的外觀和上下文如何隨時間變化。模型必須跨幀跟蹤目標,捕捉不斷變化的屬性、交互和細微的變化。

圖片

高度詳細的圖像和視頻字幕

該方法擅長生成圖像和視頻中物體的詳細描述。通過平衡焦點區域的清晰度和全局上下文,該模型可以突出細微的特征(例如復雜的圖案或變化的紋理),這遠遠超出了一般圖像級字幕所能提供的范圍。圖片

指令控制的字幕

用戶可以引導我們的模型生成不同細節和風格的描述。無論是簡短的摘要,還是冗長復雜的敘述,模型都能調整輸出。這種靈活性使其適用于各種用例,從快速標記任務到深入的專家分析。

圖片

零樣本區域 QA

除了描述之外,我們的模型無需額外的訓練數據即可回答有關特定區域的問題。用戶可以詢問該區域的屬性,模型會利用其對本地區域的理解,提供準確的、基于情境的答案。此功能增強了自然、交互式的用例。

圖片

描述任何事物模型 (DAM) 的架構

架構采用“焦點提示”技術,提供完整圖像和目標區域的放大視圖。這種方法確保模型能夠捕捉精細細節,同時保留全局背景。最終呈現的字幕細致準確,既能反映全局,又能捕捉細微之處。

圖片該方法引入了一個集成全局特征和焦點特征的局部視覺主干網絡。圖像和掩碼在空間上對齊,門控交叉注意力層將局部細節線索與全局上下文融合。新參數初始化為零,保留預先訓練的能力。這種設計能夠產生更豐富、更具有上下文感知能力的描述。

圖片

用于詳細本地化字幕的半監督數據管道(DLC-SDP)

由于現有數據集缺乏詳細的局部描述,我們設計了一個兩階段流程。首先,我們使用可變長度語言 (VLM) 將分割數據集中的短類標簽擴展為豐富的描述。其次,我們將自訓練作為一種半監督學習的形式應用于未標記圖像,使用我們的模型生成和優化新的標題。這種可擴展的方法無需依賴大量的人工注釋即可構建大量高質量的訓練數據。圖片

DLC-Bench:詳細本地化字幕的基準

我們推出了 DLC-Bench,這是一個使用基于 LLM 的判斷器來評估模型區域描述的基準測試。DLC-Bench 不再依賴簡單的文本重疊,而是檢查細節是否正確以及是否存在錯誤。這為衡量 DLC 性能提供了一個更準確、更人性化的指標。圖片

DAM、DLC-SDP 和 DLC-Bench 的優勢

圖片

比較

在 DLC-Bench 上,我們的模型能夠生成更詳細、更準確的局部描述,并減少幻覺,從而超越現有解決方案。它超越了針對一般圖像級任務訓練的模型以及專為局部推理設計的模型,為詳細且語境豐富的字幕生成樹立了新的標準。

圖片圖片

結論

“描述任何內容”模型 (DAM)能夠為圖像和視頻中的特定區域生成詳細的描述,可用于各種應用,從數據標注到作為下游任務的中間組件。

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2025-04-27 08:30:00

2009-09-14 13:14:49

LINQ序列

2009-09-14 14:58:52

LINQ to XML

2009-09-14 16:33:55

LINQ To XML

2009-09-24 16:19:53

Hibernate應用

2009-09-25 14:28:40

Hibernate S

2009-11-18 11:14:49

2010-02-05 16:58:18

Android服務

2010-04-09 17:45:06

Oracle索引

2009-10-10 10:04:50

RHEL合法使用

2009-08-10 16:40:03

C#索引器

2009-09-08 11:09:39

LINQ數據源

2009-10-15 14:59:45

網絡布線光纖技術

2009-09-25 11:04:32

Hibernate3實

2010-09-08 15:10:48

2009-08-26 15:53:48

C#擴展方法

2009-08-27 15:17:40

C# const變量

2009-09-07 15:15:43

2009-09-03 17:59:18

C#調用事件

2011-11-02 09:29:42

存儲虛擬化虛擬化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费黄网站在线观看 | 国产色网 | 精品欧美乱码久久久久久 | 国产精品毛片一区二区三区 | 人人干视频在线 | 米奇成人网 | 日韩在线三级 | 日韩欧美在线免费观看视频 | 国产欧美精品一区二区三区 | 国产精品三级 | 国产精品久久久久无码av | 欧美一极视频 | 精品美女久久久 | 久久精品这里精品 | 一区二区在线视频 | 亚洲欧美一区二区三区1000 | 天天操天天射综合网 | www.亚洲免费 | 欧美中文字幕在线观看 | 99精品欧美一区二区三区综合在线 | 欧美综合国产精品久久丁香 | 黄视频网站免费观看 | 成人乱人乱一区二区三区软件 | 日韩a在线观看 | 久久久久久综合 | 亚洲男女视频在线观看 | 欧美日韩在线一区二区 | 亚洲一区二区三区视频在线 | 欧美激情精品久久久久久 | 91中文在线观看 | 天天射天天干 | 国产欧美一区二区三区久久手机版 | 欧美福利| 中文字幕精品一区二区三区精品 | 日韩精品一区二区三区在线播放 | 日韩一区二区免费视频 | 精品国产一级片 | 国产乱一区二区三区视频 | 欧美日韩专区 | 美日韩一区二区 | 久草免费在线视频 |