DAM - 3B - Videoオープンソースビジュアル言語モデル - 無料でデプロイし、画像/ビデオの局所的な説明を正確に生成する

Home

DAM 3B Video

Developed by nvidia

DAM-3B-Videoは30億パラメータの視覚言語モデルで、ユーザーが指定した画像/動画領域に対して詳細な局所記述を生成できます。

画像生成テキスト

Safetensors

EnglishOpen Source License:Other #局所領域の記述 #マルチモーダル入力 #動画キャプション生成

Downloads 426

Release Time : 4/21/2025

Model Overview

このモデルはフォーカスプロンプトメカニズムとゲート付きクロスアテンション強化型局所視覚バックボーンを採用し、全体画像/動画のコンテキストと細粒度な局所詳細を統合して視覚領域に対する詳細な記述を生成します。

Model Features

詳細な局所記述

ユーザーが点/枠/落書き/マスク形式で指定した画像/動画領域に対して詳細な記述を生成可能

フォーカスプロンプトメカニズム

革新的なフォーカスプロンプトメカニズムにより、ユーザー指定領域に注意を集中

ゲート付きクロスアテンション強化

ゲート付きクロスアテンション強化型局所視覚バックボーンを採用し、グローバルコンテキストと局所詳細を統合

マルチモーダル入力対応

画像、動画、テキスト、バイナリマスクなど多様な入力形式をサポート

Model Capabilities

画像領域記述生成

動画領域記述生成

マルチモーダル入力処理

詳細な局所特徴識別

Use Cases

研究応用

コンピュータビジョン研究

視覚言語モデルの研究開発に利用

非商用応用

教育デモンストレーション

先進的な視覚言語理解能力の展示

🚀 何でも記述: 詳細な局所化画像およびビデオのキャプション生成

NVIDIA、UCバークレー、UCSFによる、画像やビデオの特定領域に対して詳細な説明を生成するモデルです。

🚀 クイックスタート

Describe Anything Model 3B Video (DAM-3B-Video) は、画像やビデオ内のユーザー指定領域（点、ボックス、スクライブル、マスクなどの形式）を入力として受け取り、画像やビデオの詳細な局所化説明を生成します。このモデルは研究開発用であり、非商用利用に対応しています。

✨ 主な機能

DAMは、新しい焦点プロンプトとゲート付きクロスアテンションで強化された局所化ビジョンバックボーンを使用して、全画像/ビデオのコンテキストと細粒度の局所詳細を統合します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

このREADMEには具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデルの概要

Describe Anything Model 3B Video (DAM-3B-Video) は、画像やビデオ内のユーザー指定領域を入力として受け取り、詳細な局所化説明を生成します。このモデルは研究開発用であり、非商用利用に対応しています。

ライセンス

NVIDIA Noncommercial License

想定される使用方法

このモデルは、Describe Anythingモデルの理解と使用を示し、促進することを目的としています。主に研究および非商用目的で使用されるべきです。

モデルアーキテクチャ

属性	詳情
モデルタイプ	Transformer
ネットワークアーキテクチャ	ViTとLlama
開発ベース	VILA-1.5
モデルパラメータ数	3B

入力

属性	詳情
入力タイプ	画像、ビデオ、テキスト、バイナリマスク
入力形式	RGB画像、RGBビデオ、バイナリマスク
入力パラメータ	2D画像、2Dビデオ、2Dバイナリマスク
その他の入力関連属性	RGB画像は3チャンネル、RGBビデオは3チャンネル、バイナリマスクは1チャンネル。解像度は384x384。

出力

属性	詳情
出力タイプ	テキスト
出力形式	文字列
出力パラメータ	1Dテキスト
その他の出力関連属性	ビジュアル領域の詳細な説明

サポートされるハードウェアマイクロアーキテクチャ互換性

NVIDIA Ampere
NVIDIA Hopper
NVIDIA Lovelace

推奨/サポートされるオペレーティングシステム

Linux

トレーニングデータセット

Describe Anything Training Datasets

評価データセット

モデルは詳細な局所化キャプション生成ベンチマーク DLC-Bench で評価されています。

推論

PyTorch

倫理的な考慮事項

NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対処することを確認する必要があります。

セキュリティバグまたはNVIDIA AIに関する懸念事項は、こちらから報告してください。

📄 ライセンス

NVIDIA Noncommercial License

🔧 技術詳細

このREADMEには具体的な技術詳細が記載されていないため、このセクションは省略されます。

📄 引用

もしあなたがこのリポジトリの作品や実装を使用したり、役に立つと感じた場合は、引用を検討してください。

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
}