🚀 描述一切:詳細的局部圖像和視頻字幕生成
本項目由NVIDIA、加州大學伯克利分校和加州大學舊金山分校聯合開展。它能夠根據用戶指定的圖像或視頻區域,生成詳細的局部描述,為圖像和視頻理解提供了強大的工具。
項目成員包括Long Lian、Yifan Ding、Yunhao Ge、Sifei Liu、Hanzi Mao、Boyi Li、Marco Pavone、Ming-Yu Liu、Trevor Darrell、Adam Yala、Yin Cui。
[論文] | [代碼] | [項目主頁] | [視頻] | [HuggingFace演示] | [模型/基準測試/數據集] | [引用]
🚀 快速開始
本項目旨在展示和促進對“描述一切”模型的理解與使用。它主要用於研究和非商業目的。
✨ 主要特性
- 詳細局部描述:Describe Anything Model 3B Video (DAM-3B-Video) 可以接受用戶以點、框、塗鴉、掩碼等形式指定的圖像或視頻區域作為輸入,並生成詳細的局部描述。
- 創新架構:DAM 使用新穎的焦點提示和通過門控交叉注意力增強的局部視覺骨幹網絡,將全圖像/視頻上下文與細粒度的局部細節相結合。
- 非商業可用:該模型僅供研究和開發使用,可用於非商業用途。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
模型卡片:DAM-3B
描述
Describe Anything Model 3B Video (DAM-3B-Video) 接受用戶以點、框、塗鴉、掩碼等形式指定的圖像或視頻區域作為輸入,並生成詳細的局部描述。DAM 使用新穎的焦點提示和通過門控交叉注意力增強的局部視覺骨幹網絡,將全圖像/視頻上下文與細粒度的局部細節相結合。該模型僅供研究和開發使用,可用於非商業用途。
許可證
NVIDIA 非商業許可證
預期用途
本模型旨在展示和促進對“描述一切”模型的理解與使用。它主要用於研究和非商業目的。
模型架構
屬性 |
詳情 |
架構類型 |
Transformer |
網絡架構 |
ViT 和 Llama |
本模型基於 VILA-1.5 開發,擁有 30 億個模型參數。
輸入
屬性 |
詳情 |
輸入類型 |
圖像、視頻、文本、二進制掩碼 |
輸入格式 |
RGB 圖像、RGB 視頻、二進制掩碼 |
輸入參數 |
二維圖像、二維視頻、二維二進制掩碼 |
其他輸入相關屬性 |
RGB 圖像 3 通道,RGB 視頻 3 通道,二進制掩碼 1 通道。分辨率為 384x384。 |
輸出
屬性 |
詳情 |
輸出類型 |
文本 |
輸出格式 |
字符串 |
輸出參數 |
一維文本 |
其他輸出相關屬性 |
視覺區域的詳細描述 |
支持的硬件微架構兼容性:
- NVIDIA Ampere
- NVIDIA Hopper
- NVIDIA Lovelace
首選/支持的操作系統:
訓練數據集
描述一切訓練數據集
評估數據集
我們在詳細的局部字幕基準測試 DLC-Bench 上評估我們的模型。
推理
使用 PyTorch 進行推理。
倫理考量
NVIDIA 認為可信 AI 是一項共同責任,我們已經制定了政策和實踐,以支持廣泛的 AI 應用開發。當按照我們的服務條款下載或使用時,開發者應與內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。
請在此報告安全漏洞或 NVIDIA AI 相關問題。
🔧 技術細節
文檔未提供具體技術細節,暫不展示。
📄 許可證
本模型使用 NVIDIA 非商業許可證。
📖 引用
如果您使用了我們的工作或本倉庫中的實現,或者認為它們有幫助,請考慮引用:
@article{lian2025describe,
title={Describe Anything: Detailed Localized Image and Video Captioning},
author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
journal={arXiv preprint arXiv:2504.16072},
year={2025}
}