🚀 描述一切:详细的局部图像和视频字幕生成
Describe Anything Model 3B (DAM - 3B) 能够接收用户在图像中指定的区域(以点、框、涂鸦、掩码的形式)作为输入,并生成图像的详细局部描述。该模型结合了全图像上下文和细粒度的局部细节,仅用于研究和开发,可用于非商业用途。
🚀 快速开始
本模型旨在展示和促进对描述一切模型的理解与使用,主要用于研究和非商业目的。
✨ 主要特性
- DAM - 3B 采用新颖的焦点提示和通过门控交叉注意力增强的局部视觉骨干网络,将全图像上下文与细粒度的局部细节相结合。
- 支持多种输入形式,包括图像、文本和二进制掩码。
- 输出详细的文本描述,适用于指定的视觉区域。
- 支持多种 NVIDIA 硬件微架构,如 NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Lovelace。
- 首选操作系统为 Linux。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型描述
Describe Anything Model 3B (DAM - 3B) 接收用户在图像中以点、框、涂鸦、掩码形式指定的区域作为输入,并生成图像的详细局部描述。DAM 使用新颖的焦点提示和通过门控交叉注意力增强的局部视觉骨干网络,将全图像上下文与细粒度的局部细节相结合。该模型仅用于研究和开发,可用于非商业用途。
许可证
NVIDIA 非商业许可证
预期用途
本模型旨在展示和促进对描述一切模型的理解与使用,主要用于研究和非商业目的。
模型架构
属性 |
详情 |
架构类型 |
Transformer |
网络架构 |
ViT 和 Llama |
开发基础 |
基于 VILA-1.5 开发 |
模型参数 |
3B 模型参数 |
输入
属性 |
详情 |
输入类型 |
图像、文本、二进制掩码 |
输入格式 |
RGB 图像、二进制掩码 |
输入参数 |
2D 图像、2D 二进制掩码 |
其他输入属性 |
RGB 图像 3 通道,二进制掩码 1 通道。分辨率为 384x384 |
输出
属性 |
详情 |
输出类型 |
文本 |
输出格式 |
字符串 |
输出参数 |
1D 文本 |
其他输出属性 |
视觉区域的详细描述 |
支持的硬件微架构兼容性
- NVIDIA Ampere
- NVIDIA Hopper
- NVIDIA Lovelace
首选/支持的操作系统
训练数据集
Describe Anything 训练数据集
评估数据集
我们在详细的局部字幕基准测试 DLC - Bench 上评估我们的模型。
推理
PyTorch
伦理考量
NVIDIA 认为可信 AI 是一项共同责任,我们已经制定了政策和实践,以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时,开发者应与他们的内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品滥用问题。
请 在此 报告安全漏洞或 NVIDIA AI 相关问题。
🔧 技术细节
文档未提供具体的技术实现细节(>50 字),故跳过此章节。
📄 许可证
NVIDIA 非商业许可证
引用
如果您使用我们的工作或本仓库中的实现,或认为它们有帮助,请考虑引用:
@article{lian2025describe,
title={Describe Anything: Detailed Localized Image and Video Captioning},
author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
journal={arXiv preprint arXiv:2504.16072},
year={2025}
}