L

Llava Jp 1.3b V1.0

toshi456によって開発
LLaVA-JPは入力画像について対話可能な日本語視覚言語モデルで、LLaVA手法を用いてllm-jp-1.3b-v1.0をファインチューニングして作成されました。
ダウンロード数 30
リリース時間 : 12/4/2023

モデル概要

このモデルは画像内容を理解し、日本語で説明や関連質問に回答できるマルチモーダル視覚言語モデルです。

モデル特徴

日本語視覚理解
日本語に特化して最適化された視覚言語理解能力
多段階トレーニング
2段階のトレーニング手法を採用、まず視覚プロジェクタを事前トレーニングし、その後ファインチューニング
マルチモーダルインタラクション
画像とテキスト入力を同時に処理し、自然な対話が可能

モデル能力

画像理解
日本語テキスト生成
視覚質問応答
画像キャプション生成

使用事例

画像理解と説明
画像内容の説明
画像内容を分析し日本語で説明を生成
画像中の物体やシーンを正確に識別可能
視覚質問応答
画像に基づく質問応答
画像内容に関する日本語の質問に回答
質問を理解し関連する回答を提供可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase