DAM-3B-Video開源視覺語言模型 - 免費部署精確生成圖像/視頻局部描述

首頁

DAM 3B Video

由nvidia開發

DAM-3B-Video是一個30億參數的視覺語言模型，能夠根據用戶指定的圖像/視頻區域生成精細化局部描述。

圖像生成文本

Safetensors

英語開源協議:其他 #局部區域描述 #多模態輸入 #視頻字幕生成

下載量 426

發布時間 : 4/21/2025

模型概述

該模型通過焦點提示機制和門控交叉注意力增強的局部視覺骨幹網絡，整合全圖/視頻上下文與細粒度局部細節，生成針對視覺區域的詳細描述。

模型特點

精細化局部描述

能夠針對用戶以點/框/塗鴉/掩碼形式指定的圖像/視頻區域生成詳細描述

焦點提示機制

創新的焦點提示機制幫助模型集中注意力於用戶指定的區域

門控交叉注意力增強

採用門控交叉注意力增強的局部視覺骨幹網絡，整合全局上下文與局部細節

多模態輸入支持

支持圖像、視頻、文本和二值掩碼等多種輸入形式

模型能力

圖像區域描述生成

視頻區域描述生成

多模態輸入處理

精細化局部特徵識別

使用案例

科研應用

計算機視覺研究

用於視覺語言模型的研究和開發

非商業應用

教育演示

展示先進的視覺語言理解能力

🚀 描述一切：詳細的局部圖像和視頻字幕生成

本項目由NVIDIA、加州大學伯克利分校和加州大學舊金山分校聯合開展。它能夠根據用戶指定的圖像或視頻區域，生成詳細的局部描述，為圖像和視頻理解提供了強大的工具。

項目成員包括Long Lian、Yifan Ding、Yunhao Ge、Sifei Liu、Hanzi Mao、Boyi Li、Marco Pavone、Ming-Yu Liu、Trevor Darrell、Adam Yala、Yin Cui。

[論文] | [代碼] | [項目主頁] | [視頻] | [HuggingFace演示] | [模型/基準測試/數據集] | [引用]

🚀 快速開始

本項目旨在展示和促進對“描述一切”模型的理解與使用。它主要用於研究和非商業目的。

✨ 主要特性

詳細局部描述：Describe Anything Model 3B Video (DAM-3B-Video) 可以接受用戶以點、框、塗鴉、掩碼等形式指定的圖像或視頻區域作為輸入，並生成詳細的局部描述。
創新架構：DAM 使用新穎的焦點提示和通過門控交叉注意力增強的局部視覺骨幹網絡，將全圖像/視頻上下文與細粒度的局部細節相結合。
非商業可用：該模型僅供研究和開發使用，可用於非商業用途。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

模型卡片：DAM-3B

描述

Describe Anything Model 3B Video (DAM-3B-Video) 接受用戶以點、框、塗鴉、掩碼等形式指定的圖像或視頻區域作為輸入，並生成詳細的局部描述。DAM 使用新穎的焦點提示和通過門控交叉注意力增強的局部視覺骨幹網絡，將全圖像/視頻上下文與細粒度的局部細節相結合。該模型僅供研究和開發使用，可用於非商業用途。

許可證

NVIDIA 非商業許可證

預期用途

本模型旨在展示和促進對“描述一切”模型的理解與使用。它主要用於研究和非商業目的。

模型架構

屬性	詳情
架構類型	Transformer
網絡架構	ViT 和 Llama

本模型基於 VILA-1.5 開發，擁有 30 億個模型參數。

輸入

屬性	詳情
輸入類型	圖像、視頻、文本、二進制掩碼
輸入格式	RGB 圖像、RGB 視頻、二進制掩碼
輸入參數	二維圖像、二維視頻、二維二進制掩碼
其他輸入相關屬性	RGB 圖像 3 通道，RGB 視頻 3 通道，二進制掩碼 1 通道。分辨率為 384x384。

輸出

屬性	詳情
輸出類型	文本
輸出格式	字符串
輸出參數	一維文本
其他輸出相關屬性	視覺區域的詳細描述

支持的硬件微架構兼容性：

NVIDIA Ampere
NVIDIA Hopper
NVIDIA Lovelace

首選/支持的操作系統：

Linux

訓練數據集

描述一切訓練數據集

評估數據集

我們在詳細的局部字幕基準測試 DLC-Bench 上評估我們的模型。

推理

使用 PyTorch 進行推理。

倫理考量

NVIDIA 認為可信 AI 是一項共同責任，我們已經制定了政策和實踐，以支持廣泛的 AI 應用開發。當按照我們的服務條款下載或使用時，開發者應與內部模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決不可預見的產品濫用問題。

請在此報告安全漏洞或 NVIDIA AI 相關問題。

🔧 技術細節

文檔未提供具體技術細節，暫不展示。

📄 許可證

本模型使用 NVIDIA 非商業許可證。

📖 引用

如果您使用了我們的工作或本倉庫中的實現，或者認為它們有幫助，請考慮引用：

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
}