V

Vsft Llava 1.5 7b Hf Trl

Developed by HuggingFaceH4
LLaVA-1.5-7Bモデルを基に視覚的監督ファインチューニング(VSFT)で訓練されたマルチモーダル視覚言語モデルで、画像理解と対話生成をサポート
Downloads 65
Release Time : 4/11/2024

Model Overview

このモデルはオープンソースのチャットボットで、LLaMA/Vicunaを基にGPT生成のマルチモーダル指示追従データでファインチューニングされており、画像内容を理解し自然言語で対話可能

Model Features

複数画像サポート
単一プロンプトで複数画像を処理可能で、より複雑なマルチモーダル理解を実現
指示追従
指示ファインチューニング訓練済みで、ユーザーの指示に従って詳細かつ有益な回答が可能
視覚的監督ファインチューニング
26万枚の画像と対話ペアでVSFT訓練を行い、視覚理解能力を強化

Model Capabilities

画像内容理解
マルチモーダル対話生成
視覚的質問応答
画像説明生成

Use Cases

教育
科学図表の解釈
学生が科学図表のラベルや概念を理解するのを支援
図表中の要素を正確に識別しその意味を説明可能
コンテンツ分析
画像内容の説明
視覚障害ユーザー向けに画像の詳細な文章説明を生成
正確かつ詳細な画像内容の説明を提供
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase