V

Videochat Flash Qwen2 5 7B 1M Res224

OpenGVLabによって開発
VideoChat-FlashはUMT-LとQwen2.5-7B-1Mを基に構築されたマルチモーダルモデルで、長い動画の理解をサポートし、コンテキストウィンドウを1Mまで拡張可能です。
ダウンロード数 64
リリース時間 : 2/19/2025

モデル概要

このモデルは動画とテキストのマルチモーダルインタラクションに特化しており、約50,000フレームまでの長い動画入力を処理でき、動画理解と分析タスクに適しています。

モデル特徴

効率的な長動画処理
Yarn技術によりコンテキストウィンドウを1Mまで拡張し、約50,000フレームまでの長い動画入力を処理可能。
低マーキング消費
フレームあたり16トークンのみ使用し、効率的な動画内容理解を実現。
マルチモーダル能力
視覚と言語の理解能力を組み合わせ、動画とテキストのインタラクションを実現。

モデル能力

動画内容理解
マルチモーダルインタラクション
長動画処理
テキスト生成

使用事例

動画分析
動画質問応答
動画内容に基づいて関連する質問に回答
MLVUデータセットで74.1%の精度を達成
動画内容理解
長い動画内容を理解し記述
LongVideoBenchで66.5%の精度を達成
マルチモーダルテスト
知覚テスト
マルチモーダル知覚能力の評価
Perception Testで75.4%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase