V

Videollama2 7B 16F Base

Developed by DAMO-NLP-SG
VideoLLaMA 2は、動画理解における時空間モデリングと音声理解能力の向上に焦点を当てたマルチモーダル大規模言語モデルです。
Downloads 64
Release Time : 6/11/2024

Model Overview

VideoLLaMA 2は、Mistral-7B-Instruct-v0.2言語デコーダーとCLIP-ViT-Large視覚エンコーダーに基づくマルチモーダル大規模言語モデルで、動画と画像の理解と質問応答タスクをサポートします。

Model Features

時空間モデリング能力
改良されたアーキテクチャ設計により、動画内の時空間情報の理解能力が強化されています。
音声理解
動画内の音声情報の理解と分析をサポートします。
マルチモーダルサポート
動画と画像の両方の理解と質問応答タスクを同時にサポートします。

Model Capabilities

動画質問応答
画像質問応答
マルチモーダル理解
時空間情報分析

Use Cases

動画理解
動画内容の質問応答
動画内容に関する質問応答を行い、動画内の物体、動作、感情を識別します。
動画内の物体や動作を正確に識別し、動画の感情的な雰囲気を説明できます。
画像理解
画像内容の質問応答
画像内容に関する質問応答を行い、画像内の物体、動作、感情を識別します。
画像内の物体や動作を正確に識別し、画像の感情的な雰囲気を説明できます。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase