DAM-3B开源视觉语言模型 - 免费使用，精准生成图像区域精细化描述

首页

DAM 3B

由 nvidia 开发

DAM-3B是一个30亿参数的视觉语言模型，能够根据用户指定的图像区域生成精细化局部描述。

图像生成文本

Safetensors

英语开源协议:其他 #精细化局部描述 #多模态输入支持 #非商业研究用途

下载量 1,417

发布时间 : 4/21/2025

模型简介

该模型接收用户以点/框/涂鸦/掩码形式指定的图像区域输入，生成图像的精细化局部描述。通过创新的焦点提示机制和采用门控交叉注意力增强的局部视觉骨干网络，整合全图上下文与细粒度局部细节。

模型特点

精细化局部描述

能够针对用户指定的任意图像区域生成详细描述

多形式区域指定

支持点、框、涂鸦、掩码等多种形式指定关注区域

焦点提示机制

创新的注意力机制整合全图上下文与局部细节

门控交叉注意力

增强的局部视觉骨干网络提升描述质量

模型能力

图像区域描述生成

多形式区域输入处理

细粒度视觉理解

使用案例

计算机视觉研究

精细化图像理解

用于研究模型对图像局部细节的理解能力

辅助技术

视觉辅助描述

为视障人士提供图像特定区域的详细描述

🚀 描述一切：详细的局部图像和视频字幕生成

Describe Anything Model 3B (DAM - 3B) 能够接收用户在图像中指定的区域（以点、框、涂鸦、掩码的形式）作为输入，并生成图像的详细局部描述。该模型结合了全图像上下文和细粒度的局部细节，仅用于研究和开发，可用于非商业用途。

🚀 快速开始

本模型旨在展示和促进对描述一切模型的理解与使用，主要用于研究和非商业目的。

✨ 主要特性

DAM - 3B 采用新颖的焦点提示和通过门控交叉注意力增强的局部视觉骨干网络，将全图像上下文与细粒度的局部细节相结合。
支持多种输入形式，包括图像、文本和二进制掩码。
输出详细的文本描述，适用于指定的视觉区域。
支持多种 NVIDIA 硬件微架构，如 NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Lovelace。
首选操作系统为 Linux。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型描述

Describe Anything Model 3B (DAM - 3B) 接收用户在图像中以点、框、涂鸦、掩码形式指定的区域作为输入，并生成图像的详细局部描述。DAM 使用新颖的焦点提示和通过门控交叉注意力增强的局部视觉骨干网络，将全图像上下文与细粒度的局部细节相结合。该模型仅用于研究和开发，可用于非商业用途。

许可证

NVIDIA 非商业许可证

预期用途

本模型旨在展示和促进对描述一切模型的理解与使用，主要用于研究和非商业目的。

模型架构

属性	详情
架构类型	Transformer
网络架构	ViT 和 Llama
开发基础	基于 VILA-1.5 开发
模型参数	3B 模型参数

输入

属性	详情
输入类型	图像、文本、二进制掩码
输入格式	RGB 图像、二进制掩码
输入参数	2D 图像、2D 二进制掩码
其他输入属性	RGB 图像 3 通道，二进制掩码 1 通道。分辨率为 384x384

输出

属性	详情
输出类型	文本
输出格式	字符串
输出参数	1D 文本
其他输出属性	视觉区域的详细描述

支持的硬件微架构兼容性

NVIDIA Ampere
NVIDIA Hopper
NVIDIA Lovelace

首选/支持的操作系统

Linux

训练数据集

Describe Anything 训练数据集

评估数据集

我们在详细的局部字幕基准测试 DLC - Bench 上评估我们的模型。

推理

PyTorch

伦理考量

NVIDIA 认为可信 AI 是一项共同责任，我们已经制定了政策和实践，以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时，开发者应与他们的内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决意外的产品滥用问题。

请在此报告安全漏洞或 NVIDIA AI 相关问题。

🔧 技术细节

文档未提供具体的技术实现细节（>50 字），故跳过此章节。

📄 许可证

NVIDIA 非商业许可证

引用

如果您使用我们的工作或本仓库中的实现，或认为它们有帮助，请考虑引用：

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
}