MMDuetオープンソースビデオモデル - ビデオのリアルタイムインタラクションをサポート、時間に敏感な理解タスクに特化

Mmduet

wangyueqianによって開発

MMDuetは、ビデオ再生中のリアルタイムインタラクションをサポートするVideoLLMモデルで、時間感度の高いビデオ理解タスクに特化しています。

ダウンロード数 69

リリース時間 : 11/20/2024

モデル概要

MMDuetはマルチモーダルモデルで、ビデオとテキスト入力を処理し、テキスト出力を生成することができ、特にオンラインビデオ理解とインタラクションシーンに適しています。

リアルタイムビデオインタラクション

ビデオ再生中のリアルタイムインタラクションと理解をサポート

時間感度理解

時間感度の高いビデオコンテンツの理解能力を特別に最適化

マルチモーダル処理

ビデオとテキスト入力を同時に処理し、意味のあるテキスト出力を生成可能

ビデオ理解

マルチモーダルインタラクション

リアルタイム応答

時間感度分析

オンライン教育

ビデオ講座インタラクション

学生がビデオ講座を視聴中にリアルタイムで質問し、回答を得る

学習効率と理解深度の向上

ビデオコンテンツ分析

リアルタイムビデオアノテーション

ビデオ再生中に時間感度の高いアノテーションと説明を自動生成

ビデオコンテンツのアクセシビリティと検索効率の向上

プロパティ	詳細
ライブラリ名	peft
ベースモデル	lmms-lab/llava-onevision-qwen2-7b-ov
データセット	wangyueqian/MMDuetIT
言語	en
タグ	llava-onevision、llava、multimodal、online video understanding、video understanding
パイプラインタグ	video-text-to-text