V

Vsft Llava 1.5 7b Hf Trl

HuggingFaceH4によって開発
LLaVA-1.5-7Bモデルを基に視覚的監督ファインチューニング(VSFT)で訓練されたマルチモーダル視覚言語モデルで、画像理解と対話生成をサポート
ダウンロード数 65
リリース時間 : 4/11/2024

モデル概要

このモデルはオープンソースのチャットボットで、LLaMA/Vicunaを基にGPT生成のマルチモーダル指示追従データでファインチューニングされており、画像内容を理解し自然言語で対話可能

モデル特徴

複数画像サポート
単一プロンプトで複数画像を処理可能で、より複雑なマルチモーダル理解を実現
指示追従
指示ファインチューニング訓練済みで、ユーザーの指示に従って詳細かつ有益な回答が可能
視覚的監督ファインチューニング
26万枚の画像と対話ペアでVSFT訓練を行い、視覚理解能力を強化

モデル能力

画像内容理解
マルチモーダル対話生成
視覚的質問応答
画像説明生成

使用事例

教育
科学図表の解釈
学生が科学図表のラベルや概念を理解するのを支援
図表中の要素を正確に識別しその意味を説明可能
コンテンツ分析
画像内容の説明
視覚障害ユーザー向けに画像の詳細な文章説明を生成
正確かつ詳細な画像内容の説明を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase