C

Convllava JP 1.3b 1280

toshi456によって開発
ConvLLaVA-JPは高解像度入力に対応した日本語視覚言語モデルで、入力画像について対話が可能です。
ダウンロード数 31
リリース時間 : 6/14/2024

モデル概要

このモデルは画像エンコーダーとテキストデコーダーを組み合わせ、1280x1280の高解像度入力をサポートし、画像キャプション生成や視覚質問応答などのタスクが可能です。

モデル特徴

高解像度対応
1280x1280の高解像度画像入力をサポートし、より豊富な視覚的詳細を捉えることが可能
多段階訓練
3段階の訓練戦略を採用し、まず視覚プロジェクターを訓練し、次に画像エンコーダーと言語モデルを共同訓練し、最後に微調整を行う
日本語最適化
日本語に特化して訓練・最適化されており、日本語視覚言語タスクで良好な性能を発揮

モデル能力

画像キャプション生成
視覚質問応答
画像対話
高解像度画像理解

使用事例

画像理解
画像内容説明
入力画像に対して詳細な日本語説明を生成
画像中の物体とその関係を正確に識別可能
視覚質問応答
画像内容に関する日本語質問に回答
JA-VG-VQA-500やJA-VLM-Bench-In-the-Wildなどのベンチマークで良好な性能
人間と機械の相互作用
画像ベース対話システム
ユーザーと画像内容について自然言語で対話
複雑な質問を理解し関連する回答を提供可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase