V

Videochat Flash Qwen2 5 2B Res448

OpenGVLabによって開発
VideoChat-Flash-2BはUMT-L(300M)とQwen2.5-1.5Bを基に構築されたマルチモーダルモデルで、動画テキストからテキストへの変換タスクをサポートし、1フレームあたり16トークンのみを使用し、コンテキストウィンドウを128kに拡張します。
ダウンロード数 904
リリース時間 : 1/11/2025

モデル概要

このモデルはマルチモーダルタスク、特に動画とテキスト間の変換に特化しており、長い動画入力(最大約10,000フレーム)を処理できます。

モデル特徴

効率的な動画処理
1フレームあたり16トークンのみを使用し、計算リソースの需要を大幅に削減します。
長い動画のサポート
Yarnによりコンテキストウィンドウを128kに拡張し、最大約10,000フレームの入力シーケンスをサポートします。
マルチモーダル能力
視覚と言語モデルを組み合わせ、動画とテキスト間の効率的な変換を実現します。

モデル能力

動画テキスト変換
マルチモーダル理解
長い動画処理

使用事例

動画分析
動画内容理解
動画内容を分析し、テキスト記述を生成します。
MLVUデータセットで65.7%の精度を達成
長い動画処理
長い動画を処理し、キー情報を抽出します。
長い動画ベンチマークで58.3%の精度を達成
マルチモーダルテスト
知覚テスト
マルチモーダル知覚能力テストを実施します。
知覚テストで70.5%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase