llava-calm2-siglipオープンソースビジュアル言語モデル - 無料でデプロイ可能、画像関連の質問に日本語と英語で回答

Home

Llava Calm2 Siglip

Developed by cyberagent

llava-calm2-siglip は実験的な視覚言語モデルで、画像に関する質問に日本語と英語で回答できます。

画像生成テキスト

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #日本語視覚質問応答 #マルチモーダル対話 #画像理解

Downloads 3,930

Release Time : 6/12/2024

Model Overview

このモデルはLLaVA 1.5ベースの視覚言語指示追従モデルで、calm2-7b-chatを言語モデル、siglip-so400m-patch14-384を画像エンコーダとして採用しています。主に画像理解と多言語対話タスクに使用されます。

Model Features

多言語サポート

日本語と英語の2言語での画像理解と対話をサポート

高性能視覚理解

LLaVA野外ベンチマークとHeronベンチマークで優れた性能を発揮

2段階トレーニング

第1段階でMLP投影層を学習し、第2段階で言語モデルと投影層を共同で微調整

Model Capabilities

画像キャプション生成

多言語視覚質問応答

画像内容理解

クロスモーダル対話

Use Cases

画像理解

画像内容の説明

画像の内容を詳細に説明（物体やシーンの識別など）

画像中の物体、シーン、詳細を正確に説明可能

視覚質問応答

画像に基づく質問応答

ユーザーの画像内容に関する質問に回答

画像内容に関する様々な質問に正確に回答可能

🚀 llava-calm2-siglip

llava-calm2-siglip は、画像に関する日本語の質問に回答できる実験的なビジョン言語モデルです。

🚀 クイックスタート

このモデルを使用することで、画像に関する質問に回答することができます。以下に使用例を示します。

💻 使用例

基本的な使用法

from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration
import torch

model = LlavaForConditionalGeneration.from_pretrained(
    "cyberagent/llava-calm2-siglip",
    torch_dtype=torch.bfloat16,
).to(0)

processor = AutoProcessor.from_pretrained("cyberagent/llava-calm2-siglip")

prompt = """USER: <image>
この画像を説明してください。
ASSISTANT: """

url = "https://unsplash.com/photos/LipkIP4fXbM/download?force=true&w=640"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

inputs = processor(text=prompt, images=image, return_tensors="pt").to(0, torch.bfloat16)
generate_ids = model.generate(**inputs,
                              max_length=500,
                              do_sample=True,
                              temperature=0.2,
                    )
output = processor.tokenizer.decode(generate_ids[0][:-1], clean_up_tokenization_spaces=False)

print(output)

# USER: <image>
# この画像を説明してください。
# ASSISTANT: 画像には、木製のテーブルの上に置かれた、たこ焼き器で焼かれた3つのたこ焼きが映っています。たこ焼きは、小麦粉をベースにした生地を丸く焼き、中にタコや天かす、紅ショウガなどの具材を入れたものです。たこ焼きは、ソース、マヨネーズ、青海苔、かつおぶしをかけて食べることが多いです。

📚 ドキュメント

チャットテンプレート

USER: <image>
{user_message1}
ASSISTANT: {assistant_message1}<|endoftext|>
USER: {user_message2}
ASSISTANT: {assistant_message2}<|endoftext|>
USER: {user_message3}
ASSISTANT: {assistant_message3}<|endoftext|>

モデルの詳細

属性	详情
モデルサイズ	7B
モデルタイプ	Transformerベースのビジョン言語モデル
言語	日本語、英語
開発元	CyberAgent, Inc.
ライセンス	Apache-2.0

学習について

このモデルは、LLaVA 1.5 をベースにしたビジュアル言語命令追従モデルです。言語モデルには cyberagent/calm2-7b-chat を、画像エンコーダには google/siglip-so400m-patch14-384 を使用しています。学習において、最初の段階ではMLP投影をゼロから学習し、次の段階では言語モデルとMLP投影の両方を追加学習します。

ビジュアル命令微調整のデータセット

ビジュアル命令微調整の第二段階では、画像に関する会話のデータセットで学習を行います。これらの会話データは、MS-COCO と VisualGenome の画像、キャプション、オブジェクトラベル、バウンディングボックスに基づいて、当社の社内大規模日本語言語モデルを使用して生成されています。画像を使用せずにビジュアル命令微調整用の会話データセットを生成する方法については、LLaVA 1.5 を参照してください。

評価結果

LLaVA Bench In-the-wild

モデル	詳細	会話	複雑	平均
llava-calm2-siglip	51.2	55.9	65.51	57.54
Japanese Stable VLM	26.02	24.84	29.18	26.68
SakanaAI EvoVLM-JP	49.59	65.49	54.22	56.43
Heron BLIP v1 (620k)	45.45	32.90	56.89	45.08
Heron GIT	40.98	39.87	54.59	45.15

LLaVA Bench In-the-wild を日本語に翻訳したものです。

Heron-Bench

モデル	詳細	会話	複雑	平均
llava-calm2-siglip	53.42	50.13	52.72	52.09
Japanese Stable VLM	25.15	51.23	37.84	38.07
SakanaAI EvoVLM-JP	50.31	44.42	40.47	45.07
Heron BLIP v1 (620k)	49.09	41.51	45.72	45.44
Heron GIT	42.77	54.20	43.53	46.83

Heron-Bench

使用方法と制限事項

意図された使用方法

このモデルは、オープンソースコミュニティによるビジョン言語アプリケーションや学術研究での使用を想定しています。

制限事項とバイアス

この汎用的な日本語VLMモデルは、各タスクに関連するデータで特化して微調整することで最適な性能を発揮します。技術的には可能ですが、商用利用には注意が必要であり、本番システムにデプロイする際には不適切なコンテンツをフィルタリングするメカニズムの実装を強く推奨します。このモデルは、個人やグループに潜在的な危害を与える可能性のある、または苦痛を引き起こすアプリケーションでの使用は推奨されません。 CyberAgentは、このモデルの使用によって生じる直接的、間接的、特別な、偶発的、または結果的な損害、およびその結果に関係なく生じる損失に対して一切の責任を負いません。ユーザーは、このモデルを使用する前にこれらの制限事項を十分に理解する必要があります。