DAM-3B開源視覺語言模型 - 免費使用，精準生成圖像區域精細化描述

首頁

DAM 3B

由nvidia開發

DAM-3B是一個30億參數的視覺語言模型，能夠根據用戶指定的圖像區域生成精細化局部描述。

圖像生成文本

Safetensors

英語開源協議:其他 #精細化局部描述 #多模態輸入支持 #非商業研究用途

下載量 1,417

發布時間 : 4/21/2025

模型概述

該模型接收用戶以點/框/塗鴉/掩碼形式指定的圖像區域輸入，生成圖像的精細化局部描述。通過創新的焦點提示機制和採用門控交叉注意力增強的局部視覺骨幹網絡，整合全圖上下文與細粒度局部細節。

模型特點

精細化局部描述

能夠針對用戶指定的任意圖像區域生成詳細描述

多形式區域指定

支持點、框、塗鴉、掩碼等多種形式指定關注區域

焦點提示機制

創新的注意力機制整合全圖上下文與局部細節

門控交叉注意力

增強的局部視覺骨幹網絡提升描述質量

模型能力

圖像區域描述生成

多形式區域輸入處理

細粒度視覺理解

使用案例

計算機視覺研究

精細化圖像理解

用於研究模型對圖像局部細節的理解能力

輔助技術

視覺輔助描述

為視障人士提供圖像特定區域的詳細描述

🚀 描述一切：詳細的局部圖像和視頻字幕生成

Describe Anything Model 3B (DAM - 3B) 能夠接收用戶在圖像中指定的區域（以點、框、塗鴉、掩碼的形式）作為輸入，並生成圖像的詳細局部描述。該模型結合了全圖像上下文和細粒度的局部細節，僅用於研究和開發，可用於非商業用途。

🚀 快速開始

本模型旨在展示和促進對描述一切模型的理解與使用，主要用於研究和非商業目的。

✨ 主要特性

DAM - 3B 採用新穎的焦點提示和通過門控交叉注意力增強的局部視覺骨幹網絡，將全圖像上下文與細粒度的局部細節相結合。
支持多種輸入形式，包括圖像、文本和二進制掩碼。
輸出詳細的文本描述，適用於指定的視覺區域。
支持多種 NVIDIA 硬件微架構，如 NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Lovelace。
首選操作系統為 Linux。

📦 安裝指南

文檔未提供安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型描述

Describe Anything Model 3B (DAM - 3B) 接收用戶在圖像中以點、框、塗鴉、掩碼形式指定的區域作為輸入，並生成圖像的詳細局部描述。DAM 使用新穎的焦點提示和通過門控交叉注意力增強的局部視覺骨幹網絡，將全圖像上下文與細粒度的局部細節相結合。該模型僅用於研究和開發，可用於非商業用途。

許可證

NVIDIA 非商業許可證

預期用途

本模型旨在展示和促進對描述一切模型的理解與使用，主要用於研究和非商業目的。

模型架構

屬性	詳情
架構類型	Transformer
網絡架構	ViT 和 Llama
開發基礎	基於 VILA-1.5 開發
模型參數	3B 模型參數

輸入

屬性	詳情
輸入類型	圖像、文本、二進制掩碼
輸入格式	RGB 圖像、二進制掩碼
輸入參數	2D 圖像、2D 二進制掩碼
其他輸入屬性	RGB 圖像 3 通道，二進制掩碼 1 通道。分辨率為 384x384

輸出

屬性	詳情
輸出類型	文本
輸出格式	字符串
輸出參數	1D 文本
其他輸出屬性	視覺區域的詳細描述

支持的硬件微架構兼容性

NVIDIA Ampere
NVIDIA Hopper
NVIDIA Lovelace

首選/支持的操作系統

Linux

訓練數據集

Describe Anything 訓練數據集

評估數據集

我們在詳細的局部字幕基準測試 DLC - Bench 上評估我們的模型。

推理

PyTorch

倫理考量

NVIDIA 認為可信 AI 是一項共同責任，我們已經制定了政策和實踐，以支持廣泛的 AI 應用開發。當按照我們的服務條款下載或使用時，開發者應與他們的內部模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決意外的產品濫用問題。

請在此報告安全漏洞或 NVIDIA AI 相關問題。

🔧 技術細節

文檔未提供具體的技術實現細節（>50 字），故跳過此章節。

📄 許可證

NVIDIA 非商業許可證

引用

如果您使用我們的工作或本倉庫中的實現，或認為它們有幫助，請考慮引用：

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
}