V

Videochat Flash Qwen2 5 7B InternVideo2 1B

OpenGVLabによって開発
InternVideo2-1BとQwen2.5-7Bを基に構築されたマルチモーダル動画テキストモデルで、1フレームあたりわずか16トークンを使用し、最大10,000フレームの入力シーケンスをサポートします。
ダウンロード数 193
リリース時間 : 2/19/2025

モデル概要

このモデルは効率的なマルチモーダル動画テキスト処理モデルで、動画理解とテキスト生成タスクに特化しており、特に長編動画コンテンツの分析に適しています。

モデル特徴

効率的な動画処理
1フレームあたりわずか16トークンを使用し、計算リソースの需要を大幅に削減
超長文脈サポート
Yarn技術により128kコンテキストウィンドウに拡張、約10,000フレームの入力をサポート
マルチモーダル理解
視覚と言語モデルを組み合わせ、動画コンテンツの深い理解を実現

モデル能力

動画コンテンツ理解
長編動画分析
マルチモーダル推論
動画質問応答

使用事例

動画コンテンツ分析
長編動画要約
数時間に及ぶ動画コンテンツからキー情報を抽出し要約
長編動画ベンチマークテストで64.5%の精度を達成
動画質問応答
動画コンテンツに関する複雑な質問に回答
MLVUデータセットで73.4%の精度を達成
マルチモーダル理解
動画シーン理解
動画内のシーン、アクション、オブジェクトを識別・分析
知覚テストで76.3%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase