L

Llava NeXT Video 7B

lmms-labによって開発
LLaVA-Next-Videoはオープンソースのマルチモーダル対話ロボットで、大規模言語モデルのファインチューニングにより訓練され、動画とテキストのマルチモーダルインタラクションをサポートします。
ダウンロード数 1,146
リリース時間 : 4/16/2024

モデル概要

LLaVA-Next-Videoは大規模言語モデルベースのオープンソース対話ロボットで、マルチモーダル指示追従タスクに特化し、動画とテキストのインタラクションをサポートします。

モデル特徴

マルチモーダルインタラクション
動画とテキストのマルチモーダル入力をサポートし、動画内容に関連するテキスト応答を理解・生成できます。
オープンソースモデル
完全なオープンソースで、研究者や開発者が自由に使用・改変できます。
指示追従
マルチモーダル指示追従データでファインチューニングされており、複雑なマルチモーダルタスクを正確に実行できます。

モデル能力

動画-テキスト対話
マルチモーダル指示理解
動画内容分析
テキスト生成

使用事例

研究
マルチモーダルモデル研究
コンピュータビジョンと自然言語処理分野の研究に使用され、マルチモーダルモデルの可能性を探ります。
教育
動画内容QA
教育現場で、学生が動画について質問し、モデルが関連する解答を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase