Llava NeXT Video 7B
LLaVA-Next-Videoはオープンソースのマルチモーダル対話ロボットで、大規模言語モデルのファインチューニングにより訓練され、動画とテキストのマルチモーダルインタラクションをサポートします。
ダウンロード数 1,146
リリース時間 : 4/16/2024
モデル概要
LLaVA-Next-Videoは大規模言語モデルベースのオープンソース対話ロボットで、マルチモーダル指示追従タスクに特化し、動画とテキストのインタラクションをサポートします。
モデル特徴
マルチモーダルインタラクション
動画とテキストのマルチモーダル入力をサポートし、動画内容に関連するテキスト応答を理解・生成できます。
オープンソースモデル
完全なオープンソースで、研究者や開発者が自由に使用・改変できます。
指示追従
マルチモーダル指示追従データでファインチューニングされており、複雑なマルチモーダルタスクを正確に実行できます。
モデル能力
動画-テキスト対話
マルチモーダル指示理解
動画内容分析
テキスト生成
使用事例
研究
マルチモーダルモデル研究
コンピュータビジョンと自然言語処理分野の研究に使用され、マルチモーダルモデルの可能性を探ります。
教育
動画内容QA
教育現場で、学生が動画について質問し、モデルが関連する解答を生成します。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98