X

Xgen Mm Vid Phi3 Mini R V1.5 32tokens 8frames

Salesforceによって開発
xGen-MM-Vid (BLIP-3-Video) は、ビデオ内容を理解するために特別に設計された、明示的な時間エンコーダーを備えた高効率でコンパクトなビジュアル言語モデルです。
ダウンロード数 441
リリース時間 : 1/15/2025

モデル概要

このモデルは、元の BLIP-3 アーキテクチャに学習可能な時間エンコーダーモジュールを組み込み、ビデオ内容の理解能力を向上させています。

モデル特徴

明示的な時間エンコーダー
明示的な時間エンコーダーを備えており、ビデオ内容をよりよく理解できます。
高効率でコンパクト
モデルは高効率でコンパクトに設計されており、ビデオ内容の処理に適しています。
拡張性
原則として任意の数のフレームを処理でき、学習時には 8 フレームのビデオを使用します。

モデル能力

ビデオ内容理解
マルチモーダル処理
時系列分析

使用事例

ビデオ分析
ビデオ質問応答
MSVD-QA データセットを使用してビデオ質問応答タスクを行います。
視覚的なトークン数と正解率の間で良好なトレードオフ関係を示しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase