X

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

Salesforceによって開発
xGen-MM-Vid (BLIP-3-Video) は、動画コンテンツの理解のために設計された明示的な時間エンコーダを備えた効率的なコンパクト視覚言語モデルです。
ダウンロード数 398
リリース時間 : 12/18/2024

モデル概要

このモデルはSalesforce AI Researchによって開発され、BLIP-3アーキテクチャを基に、学習可能な時間エンコーダモジュールを組み込み、8フレームの動画入力を処理できます。

モデル特徴

効率的な動画理解
明示的な時間エンコーダを備えており、動画コンテンツの理解のために設計されています。
コンパクトモデル
効率的なコンパクト視覚言語モデルで、リソースが限られた環境に適しています。
マルチフレーム処理能力
8フレームの動画入力を処理でき、理論的には任意のフレーム数をサポートします。

モデル能力

動画コンテンツ理解
マルチフレーム動画処理
視覚言語タスク

使用事例

動画分析
動画質問応答
MSVD-QAデータセットで動画質問応答タスクを実行。
視覚トークン数と精度のトレードオフにおいて優れた性能を発揮。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase