D

DAM 3B Video

Developed by nvidia
DAM-3B-Videoは30億パラメータの視覚言語モデルで、ユーザーが指定した画像/動画領域に対して詳細な局所記述を生成できます。
Downloads 426
Release Time : 4/21/2025

Model Overview

このモデルはフォーカスプロンプトメカニズムとゲート付きクロスアテンション強化型局所視覚バックボーンを採用し、全体画像/動画のコンテキストと細粒度な局所詳細を統合して視覚領域に対する詳細な記述を生成します。

Model Features

詳細な局所記述
ユーザーが点/枠/落書き/マスク形式で指定した画像/動画領域に対して詳細な記述を生成可能
フォーカスプロンプトメカニズム
革新的なフォーカスプロンプトメカニズムにより、ユーザー指定領域に注意を集中
ゲート付きクロスアテンション強化
ゲート付きクロスアテンション強化型局所視覚バックボーンを採用し、グローバルコンテキストと局所詳細を統合
マルチモーダル入力対応
画像、動画、テキスト、バイナリマスクなど多様な入力形式をサポート

Model Capabilities

画像領域記述生成
動画領域記述生成
マルチモーダル入力処理
詳細な局所特徴識別

Use Cases

研究応用
コンピュータビジョン研究
視覚言語モデルの研究開発に利用
非商用応用
教育デモンストレーション
先進的な視覚言語理解能力の展示
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase