D

DAM 3B Self Contained

nvidiaによって開発
DAM-3Bはユーザーが指定した画像領域(点/枠/落書き/マスク)に基づいて精密な局所記述を生成できる視覚言語モデルです。
ダウンロード数 824
リリース時間 : 4/21/2025

モデル概要

このモデルは焦点プロンプトと局所視覚バックボーンネットワークを統合し、画像全体のコンテキストと細粒度の局所詳細を組み合わせて、画像の精密な局所記述を生成します。

モデル特徴

精密な局所記述
ユーザー指定の画像領域に基づいて詳細な局所記述を生成可能
マルチモーダル入力サポート
点、枠、落書き、マスクなど様々な形式の領域指定方法をサポート
コンテキスト統合
焦点プロンプトとゲート付きクロスアテンション機構により、画像全体のコンテキストと局所詳細を統合

モデル能力

画像領域記述生成
マルチモーダル入力処理
精密な視覚理解

使用事例

コンピュータビジョン
画像アノテーション
画像内の特定領域に対して詳細な記述を生成
画像アノテーションの精度と詳細性の向上
視覚支援
視覚障害者向けに画像内容の詳細記述を提供
視覚情報のアクセシビリティ向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase