V

Videochat Flash Qwen2 7B Res448

OpenGVLabによって開発
VideoChat-Flash-7BはUMT-L (300M)とQwen2-7Bを基に構築されたマルチモーダルモデルで、1フレームあたりわずか16トークンを使用し、約10,000フレームまでの長い入力シーケンスをサポートします。
ダウンロード数 661
リリース時間 : 1/11/2025

モデル概要

このモデルは、ビデオとテキスト間のインタラクションタスクを処理するマルチモーダルビデオテキスト変換モデルで、効率的なビデオ理解とテキスト生成能力を備えています。

モデル特徴

効率的なビデオ処理
1フレームあたりわずか16トークンを使用し、処理効率を大幅に向上させます。
長いシーケンスのサポート
Yarnを使用してコンテキストウィンドウを128kに拡張し、約10,000フレームまでの長い入力シーケンスをサポートします。
マルチモーダル能力
ビデオとテキスト処理能力を組み合わせ、複雑なマルチモーダルタスクに適しています。

モデル能力

ビデオ理解
テキスト生成
マルチモーダルインタラクション

使用事例

ビデオ分析
ビデオ質問応答
ビデオの内容に基づいて関連する質問に答えます。
MLVUデータセットで74.7%の精度を達成。
ビデオ要約
ビデオ内容のテキスト要約を生成します。
マルチモーダル評価
マルチモーダルベンチマークテスト
MVBenchなどのデータセットでマルチモーダル性能を評価します。
MVBenchで74.0%の精度を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase