DAM 3B Video
DAM-3B-Videoは30億パラメータの視覚言語モデルで、ユーザーが指定した画像/動画領域に対して詳細な局所記述を生成できます。
Downloads 426
Release Time : 4/21/2025
Model Overview
このモデルはフォーカスプロンプトメカニズムとゲート付きクロスアテンション強化型局所視覚バックボーンを採用し、全体画像/動画のコンテキストと細粒度な局所詳細を統合して視覚領域に対する詳細な記述を生成します。
Model Features
詳細な局所記述
ユーザーが点/枠/落書き/マスク形式で指定した画像/動画領域に対して詳細な記述を生成可能
フォーカスプロンプトメカニズム
革新的なフォーカスプロンプトメカニズムにより、ユーザー指定領域に注意を集中
ゲート付きクロスアテンション強化
ゲート付きクロスアテンション強化型局所視覚バックボーンを採用し、グローバルコンテキストと局所詳細を統合
マルチモーダル入力対応
画像、動画、テキスト、バイナリマスクなど多様な入力形式をサポート
Model Capabilities
画像領域記述生成
動画領域記述生成
マルチモーダル入力処理
詳細な局所特徴識別
Use Cases
研究応用
コンピュータビジョン研究
視覚言語モデルの研究開発に利用
非商用応用
教育デモンストレーション
先進的な視覚言語理解能力の展示
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98