L

Llava Calm2 Siglip

Developed by cyberagent
llava-calm2-siglip は実験的な視覚言語モデルで、画像に関する質問に日本語と英語で回答できます。
Downloads 3,930
Release Time : 6/12/2024

Model Overview

このモデルはLLaVA 1.5ベースの視覚言語指示追従モデルで、calm2-7b-chatを言語モデル、siglip-so400m-patch14-384を画像エンコーダとして採用しています。主に画像理解と多言語対話タスクに使用されます。

Model Features

多言語サポート
日本語と英語の2言語での画像理解と対話をサポート
高性能視覚理解
LLaVA野外ベンチマークとHeronベンチマークで優れた性能を発揮
2段階トレーニング
第1段階でMLP投影層を学習し、第2段階で言語モデルと投影層を共同で微調整

Model Capabilities

画像キャプション生成
多言語視覚質問応答
画像内容理解
クロスモーダル対話

Use Cases

画像理解
画像内容の説明
画像の内容を詳細に説明(物体やシーンの識別など)
画像中の物体、シーン、詳細を正確に説明可能
視覚質問応答
画像に基づく質問応答
ユーザーの画像内容に関する質問に回答
画像内容に関する様々な質問に正確に回答可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase