DAM-3Bオープンソース視覚言語モデル - 無料で利用可能、画像領域の精緻な説明を正確に生成

ホーム

DAM 3B

nvidiaによって開発

DAM-3Bは30億パラメータの視覚言語モデルで、ユーザーが指定した画像領域に基づいて精密な局所記述を生成できます。

画像生成テキスト

Safetensors

英語オープンソースライセンス:その他 #精密な局所記述 #マルチモーダル入力サポート #非商用研究目的

ダウンロード数 1,417

リリース時間 : 4/21/2025

モデル概要

このモデルは、ユーザーが点/枠/落書き/マスク形式で指定した画像領域を入力として受け取り、画像の精密な局所記述を生成します。革新的なフォーカスプロンプトメカニズムとゲーテッドクロスアテンションで強化された局所視覚バックボーンを通じて、全体のコンテキストと細粒度の局所詳細を統合します。

モデル特徴

精密な局所記述

ユーザーが指定した任意の画像領域に対して詳細な記述を生成可能

多様な領域指定形式

点、枠、落書き、マスクなど様々な形式で注目領域を指定可能

フォーカスプロンプトメカニズム

革新的な注意メカニズムで全体コンテキストと局所詳細を統合

ゲーテッドクロスアテンション

強化された局所視覚バックボーンで記述品質を向上

モデル能力

画像領域記述生成

多様な領域入力処理

細粒度視覚理解

使用事例

コンピュータビジョン研究

精密な画像理解

モデルの画像局所詳細理解能力を研究するために使用

支援技術

視覚支援記述

視覚障害者向けに画像特定領域の詳細記述を提供

🚀 画像と動画の詳細な局所的キャプション生成モデル「Describe Anything」

Describe Anythingは、画像や動画内の指定された領域に対して詳細なキャプションを生成するモデルです。NVIDIAやUC Berkeley、UCSFなどの機関によって開発され、研究や非商用目的での利用に適しています。

🚀 クイックスタート

このモデルは、画像内の指定された領域（点、ボックス、スクライブル、マスクなどの形式）を入力として受け取り、詳細な局所的な画像の説明を生成します。

✨ 主な機能

ユーザー指定の画像内の領域に対して詳細な説明を生成
新しい焦点プロンプトとゲート付きクロスアテンションで強化された局所的なビジョンバックボーンを使用して、全画像コンテキストと細粒度の局所的な詳細を統合

📦 インストール

インストールに関する具体的な手順はREADMEに記載されていません。

💻 使用例

使用例に関する具体的なコードはREADMEに記載されていません。

📚 ドキュメント

モデルの説明

Describe Anything Model 3B (DAM-3B) は、画像内のユーザー指定の領域（点、ボックス、スクライブル、マスクなどの形式）を入力として受け取り、詳細な局所的な画像の説明を生成します。DAMは、新しい焦点プロンプトとゲート付きクロスアテンションで強化された局所的なビジョンバックボーンを使用して、全画像コンテキストと細粒度の局所的な詳細を統合します。このモデルは研究開発用であり、非商用利用に対応しています。

ライセンス

NVIDIA Noncommercial License

意図された使用法

このモデルは、Describe Anythingモデルの理解と使用を示し、促進することを目的としています。主に研究および非商用目的で使用されるべきです。

モデルアーキテクチャ

プロパティ	詳細
アーキテクチャタイプ	Transformer
ネットワークアーキテクチャ	ViTとLlama

このモデルは VILA-1.5 をベースに開発されました。
このモデルは30億のモデルパラメータを持っています。

入力

プロパティ	詳細
入力タイプ	画像、テキスト、バイナリマスク
入力形式	RGB画像、バイナリマスク
入力パラメータ	2D画像、2Dバイナリマスク
その他の入力関連のプロパティ	RGB画像は3チャンネル、バイナリマスクは1チャンネル。解像度は384x384。

出力

プロパティ	詳細
出力タイプ	テキスト
出力形式	文字列
出力パラメータ	1Dテキスト
その他の出力関連のプロパティ	ビジュアル領域の詳細な説明。

サポートされるハードウェアマイクロアーキテクチャ互換性:

NVIDIA Ampere
NVIDIA Hopper
NVIDIA Lovelace

推奨/サポートされるオペレーティングシステム:

Linux

学習データセット

Describe Anything Training Datasets

評価データセット

モデルは詳細な局所的なキャプショニングベンチマークで評価されています: DLC-Bench

推論

PyTorch

倫理的な考慮事項

NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期せぬ製品の誤用に対処することを確認する必要があります。

セキュリティの脆弱性やNVIDIA AIに関する懸念事項は、こちらで報告してください。

📄 ライセンス

NVIDIA Noncommercial License

引用

もしあなたがこのリポジトリの成果や実装を使用したり、役に立ったと感じた場合は、引用を検討してください。

@article{lian2025describe,
  title={Describe Anything: Detailed Localized Image and Video Captioning}, 
  author={Long Lian and Yifan Ding and Yunhao Ge and Sifei Liu and Hanzi Mao and Boyi Li and Marco Pavone and Ming-Yu Liu and Trevor Darrell and Adam Yala and Yin Cui},
  journal={arXiv preprint arXiv:2504.16072},
  year={2025}
}