V

Videochat Flash Qwen2 7B Res224

OpenGVLabによって開発
UMT-LとQwen2-7Bを基に構築されたマルチモーダルモデルで、長い動画の理解をサポートし、1フレームあたりわずか16トークンを使用し、コンテキストウィンドウは128kまで拡張可能です。
ダウンロード数 80
リリース時間 : 1/11/2025

モデル概要

VideoChat-Flash-7Bは効率的なマルチモーダルモデルで、ビデオテキスト変換タスクに特化しており、約10,000フレームまでの入力シーケンスを処理できます。

モデル特徴

効率的な動画処理
1フレームあたりわずか16トークンを使用することで、計算リソースの需要を大幅に削減します。
長い動画のサポート
Yarnを使用してコンテキストウィンドウを128kに拡張し、約10,000フレームまでの入力シーケンスをサポートします。
マルチモーダル理解
視覚と言語モデルを組み合わせ、動画コンテンツの深い理解を実現します。

モデル能力

動画コンテンツ理解
マルチモーダル推論
長い動画処理
テキスト生成

使用事例

動画分析
動画質問応答
動画の内容に基づいて関連する質問に答えます。
MLVUデータセットで74.5%の精度を達成しました。
動画コンテンツ要約
動画コンテンツのテキスト要約を生成します。
LongVideoBenchデータセットで64.2%の精度を達成しました。
マルチモーダル推論
視覚的質問応答
動画とテキスト情報を組み合わせて推論を行います。
Perception Testデータセットで75.6%の精度を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase