L

Llava Jp 1.3b V1.1

toshi456によって開発
LLaVA-JPは日本語をサポートするマルチモーダル視覚言語モデルで、入力画像に関する説明や対話を理解し生成できます。
ダウンロード数 90
リリース時間 : 4/17/2024

モデル概要

このモデルは視覚エンコーダーとテキストデコーダーを組み合わせ、高解像度画像入力をサポートし、日本語視覚言語タスクに特化して最適化されています。

モデル特徴

高解像度サポート
scaling_on_scales技術により768x768の高解像度画像入力を可能にします
日本語最適化
日本語視覚言語タスク向けに特別に訓練・最適化されています
2段階トレーニング
最初に視覚プロジェクターを事前訓練し、その後指示微調整を行います

モデル能力

画像理解
日本語画像キャプション生成
日本語視覚質問応答
マルチモーダル対話

使用事例

支援技術
視覚支援
視覚障害者向けに画像内容の説明を提供します
コンテンツ分析
ソーシャルメディア分析
ソーシャルメディア画像の内容を自動分析し説明を生成します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase