🚀 描述一切:詳細的局部圖像和視頻字幕生成
Describe Anything Model 3B (DAM - 3B) 能夠接收用戶在圖像中指定的區域(以點、框、塗鴉、掩碼的形式)作為輸入,並生成圖像的詳細局部描述。該模型結合了全圖像上下文和細粒度的局部細節,僅用於研究和開發,可用於非商業用途。
🚀 快速開始
本模型旨在展示和促進對描述一切模型的理解與使用,主要用於研究和非商業目的。
✨ 主要特性
- DAM - 3B 採用新穎的焦點提示和通過門控交叉注意力增強的局部視覺骨幹網絡,將全圖像上下文與細粒度的局部細節相結合。
- 支持多種輸入形式,包括圖像、文本和二進制掩碼。
- 輸出詳細的文本描述,適用於指定的視覺區域。
- 支持多種 NVIDIA 硬件微架構,如 NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Lovelace。
- 首選操作系統為 Linux。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型描述
Describe Anything Model 3B (DAM - 3B) 接收用戶在圖像中以點、框、塗鴉、掩碼形式指定的區域作為輸入,並生成圖像的詳細局部描述。DAM 使用新穎的焦點提示和通過門控交叉注意力增強的局部視覺骨幹網絡,將全圖像上下文與細粒度的局部細節相結合。該模型僅用於研究和開發,可用於非商業用途。
許可證
NVIDIA 非商業許可證
預期用途
本模型旨在展示和促進對描述一切模型的理解與使用,主要用於研究和非商業目的。
模型架構
屬性 |
詳情 |
架構類型 |
Transformer |
網絡架構 |
ViT 和 Llama |
開發基礎 |
基於 VILA-1.5 開發 |
模型參數 |
3B 模型參數 |
輸入
屬性 |
詳情 |
輸入類型 |
圖像、文本、二進制掩碼 |
輸入格式 |
RGB 圖像、二進制掩碼 |
輸入參數 |
2D 圖像、2D 二進制掩碼 |
其他輸入屬性 |
RGB 圖像 3 通道,二進制掩碼 1 通道。分辨率為 384x384 |
輸出
屬性 |
詳情 |
輸出類型 |
文本 |
輸出格式 |
字符串 |
輸出參數 |
1D 文本 |
其他輸出屬性 |
視覺區域的詳細描述 |
支持的硬件微架構兼容性
- NVIDIA Ampere
- NVIDIA Hopper
- NVIDIA Lovelace
首選/支持的操作系統
訓練數據集
Describe Anything 訓練數據集
評估數據集
我們在詳細的局部字幕基準測試 DLC - Bench 上評估我們的模型。
推理
PyTorch
倫理考量
NVIDIA 認為可信 AI 是一項共同責任,我們已經制定了政策和實踐,以支持廣泛的 AI 應用開發。當按照我們的服務條款下載或使用時,開發者應與他們的內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決意外的產品濫用問題。
請 在此 報告安全漏洞或 NVIDIA AI 相關問題。
🔧 技術細節
文檔未提供具體的技術實現細節(>50 字),故跳過此章節。
📄 許可證
NVIDIA 非商業許可證
引用
如果您使用我們的工作或本倉庫中的實現,或認為它們有幫助,請考慮引用:
@article{lian2025describe,
title={Describe Anything: Detailed Localized Image and Video Captioning},
author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
journal={arXiv preprint arXiv:2504.16072},
year={2025}
}