L

Llava Next Inst It Vicuna 7B

Inst-ITによって開発
LLaVA-Next-Inst-It-Vicuna-7B は、マルチモーダルインスタンスレベルの理解において優れた性能を発揮するモデルで、明示的な視覚プロンプト命令チューニングによりマルチモーダルインスタンス理解を強化します。
ダウンロード数 14
リリース時間 : 12/5/2024

モデル概要

このモデルはLLaVA-NeXTアーキテクチャを基盤とし、Vicuna-7B言語モデルを組み合わせ、マルチモーダルインスタンスレベルの理解タスクに特化しており、画像と動画の細粒度分析をサポートします。

モデル特徴

マルチモーダルインスタンスレベルの理解
明示的な視覚プロンプト命令チューニングにより、画像や動画内のインスタンスに対する細粒度の理解能力を強化します。
Set-of-Marks視覚プロンプトのサポート
Set-of-Marks視覚プロンプトを利用して、より正確なインスタンス参照と分析が可能です。
ビデオフレームのタイムスタンプ参照
タイムスタンプを使用して動画内の特定フレームを参照し、時系列を意識したマルチモーダル理解を実現します。

モデル能力

画像インスタンスレベルの記述
動画時系列分析
マルチモーダル質問応答
細粒度視覚理解
オープンエンドテキスト生成

使用事例

画像理解
画像インスタンス記述
画像内の特定インスタンスを詳細に記述し、インスタンスIDによる参照をサポートします。
Inst-IT-Bench-I-OEデータセットで68.6%の精度を達成。
動画理解
動画時系列分析
動画内の特定時間点における内容変化を分析し、タイムスタンプ参照をサポートします。
Inst-IT-Bench-V-OEデータセットで49.3%の精度を達成。
マルチモーダル質問応答
画像質問応答
画像内容に関する複雑な質問に回答し、インスタンスレベルの詳細を含みます。
GQAデータセットで65.9%の精度を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase