L

Llava Lightning 7B Delta V1 1

Developed by liuhaotian
LLaVAはLLaMA/VicunaをベースにGPTで生成したマルチモーダル指示追従データでファインチューニングされたオープンソースチャットボットです
Downloads 699
Release Time : 5/3/2023

Model Overview

視覚と言語理解を統合したマルチモーダル大規模モデルで、主に学術研究分野のマルチモーダルインタラクションと指示追従タスクに使用されます

Model Features

マルチモーダル融合
視覚と言語理解能力を統合し、画像とテキストの共同入力を処理可能
指示追従
GPT生成の指示データでファインチューニングされ、複雑なマルチモーダル指示に従える
軽量トレーニング
Lightning版は最適化されたトレーニングを経ており、オリジナル版より効率的

Model Capabilities

画像理解
視覚的質問応答
マルチモーダル対話
画像キャプション生成
複雑な視覚的推論

Use Cases

学術研究
マルチモーダルインタラクション研究
視覚と言語モデル統合のインタラクション方法を探求するために使用
視覚的推論ベンチマークテスト
ScienceQAなどのデータセットでマルチモーダル理解能力を評価
GPT-4と協調して現在の最高性能を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase