🚀 描述一切:详细的局部图像和视频字幕生成
本项目由NVIDIA、加州大学伯克利分校和加州大学旧金山分校联合开展。它能够根据用户指定的图像或视频区域,生成详细的局部描述,为图像和视频理解提供了强大的工具。
项目成员包括Long Lian、Yifan Ding、Yunhao Ge、Sifei Liu、Hanzi Mao、Boyi Li、Marco Pavone、Ming-Yu Liu、Trevor Darrell、Adam Yala、Yin Cui。
[论文] | [代码] | [项目主页] | [视频] | [HuggingFace演示] | [模型/基准测试/数据集] | [引用]
🚀 快速开始
本项目旨在展示和促进对“描述一切”模型的理解与使用。它主要用于研究和非商业目的。
✨ 主要特性
- 详细局部描述:Describe Anything Model 3B Video (DAM-3B-Video) 可以接受用户以点、框、涂鸦、掩码等形式指定的图像或视频区域作为输入,并生成详细的局部描述。
- 创新架构:DAM 使用新颖的焦点提示和通过门控交叉注意力增强的局部视觉骨干网络,将全图像/视频上下文与细粒度的局部细节相结合。
- 非商业可用:该模型仅供研究和开发使用,可用于非商业用途。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
模型卡片:DAM-3B
描述
Describe Anything Model 3B Video (DAM-3B-Video) 接受用户以点、框、涂鸦、掩码等形式指定的图像或视频区域作为输入,并生成详细的局部描述。DAM 使用新颖的焦点提示和通过门控交叉注意力增强的局部视觉骨干网络,将全图像/视频上下文与细粒度的局部细节相结合。该模型仅供研究和开发使用,可用于非商业用途。
许可证
NVIDIA 非商业许可证
预期用途
本模型旨在展示和促进对“描述一切”模型的理解与使用。它主要用于研究和非商业目的。
模型架构
属性 |
详情 |
架构类型 |
Transformer |
网络架构 |
ViT 和 Llama |
本模型基于 VILA-1.5 开发,拥有 30 亿个模型参数。
输入
属性 |
详情 |
输入类型 |
图像、视频、文本、二进制掩码 |
输入格式 |
RGB 图像、RGB 视频、二进制掩码 |
输入参数 |
二维图像、二维视频、二维二进制掩码 |
其他输入相关属性 |
RGB 图像 3 通道,RGB 视频 3 通道,二进制掩码 1 通道。分辨率为 384x384。 |
输出
属性 |
详情 |
输出类型 |
文本 |
输出格式 |
字符串 |
输出参数 |
一维文本 |
其他输出相关属性 |
视觉区域的详细描述 |
支持的硬件微架构兼容性:
- NVIDIA Ampere
- NVIDIA Hopper
- NVIDIA Lovelace
首选/支持的操作系统:
训练数据集
描述一切训练数据集
评估数据集
我们在详细的局部字幕基准测试 DLC-Bench 上评估我们的模型。
推理
使用 PyTorch 进行推理。
伦理考量
NVIDIA 认为可信 AI 是一项共同责任,我们已经制定了政策和实践,以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时,开发者应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
请在此报告安全漏洞或 NVIDIA AI 相关问题。
🔧 技术细节
文档未提供具体技术细节,暂不展示。
📄 许可证
本模型使用 NVIDIA 非商业许可证。
📖 引用
如果您使用了我们的工作或本仓库中的实现,或者认为它们有帮助,请考虑引用:
@article{lian2025describe,
title={Describe Anything: Detailed Localized Image and Video Captioning},
author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
journal={arXiv preprint arXiv:2504.16072},
year={2025}
}