llava-calm2-siglip開源視覺語言模型 - 免費部署，用日英雙語解答圖像問題

首頁

Llava Calm2 Siglip

由cyberagent開發

llava-calm2-siglip 是一個實驗性的視覺語言模型，能夠用日語和英語回答關於圖像的問題。

圖像生成文本

Transformers

支持多種語言開源協議:Apache-2.0 #日語視覺問答 #多模態對話 #圖像理解

下載量 3,930

發布時間 : 6/12/2024

模型概述

該模型是基於LLaVA 1.5的視覺語言指令跟隨模型，採用calm2-7b-chat作為語言模型，siglip-so400m-patch14-384作為圖像編碼器。主要用於圖像理解和多語言對話任務。

模型特點

多語言支持

支持日語和英語兩種語言的圖像理解和對話

高性能視覺理解

在LLaVA野外基準測試和Heron基準測試中表現優異

兩階段訓練

第一階段學習MLP投影層，第二階段聯合微調語言模型和投影層

模型能力

圖像描述生成

多語言視覺問答

圖像內容理解

跨模態對話

使用案例

圖像理解

圖像內容描述

對圖像內容進行詳細描述，如識別物體、場景等

能準確描述圖像中的物體、場景和細節

視覺問答

基於圖像的問答

回答用戶關於圖像內容的問題

能準確回答關於圖像內容的各類問題

🚀 llava-calm2-siglip

llava-calm2-siglip 是一款實驗性的視覺語言模型，能夠用日語回答關於圖像的問題，為圖像理解和交互提供了新的解決方案。

🚀 快速開始

llava-calm2-siglip 是一個可以用日語回答有關圖像問題的實驗性視覺語言模型。以下是使用該模型的基本步驟。

基礎用法

from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration
import torch

model = LlavaForConditionalGeneration.from_pretrained(
    "cyberagent/llava-calm2-siglip",
    torch_dtype=torch.bfloat16,
).to(0)

processor = AutoProcessor.from_pretrained("cyberagent/llava-calm2-siglip")

prompt = """USER: <image>
この畫像を説明してください。
ASSISTANT: """

url = "https://unsplash.com/photos/LipkIP4fXbM/download?force=true&w=640"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

inputs = processor(text=prompt, images=image, return_tensors="pt").to(0, torch.bfloat16)
generate_ids = model.generate(**inputs,
                              max_length=500,
                              do_sample=True,
                              temperature=0.2,
                    )
output = processor.tokenizer.decode(generate_ids[0][:-1], clean_up_tokenization_spaces=False)

print(output)

# USER: <image>
# この畫像を説明してください。
# ASSISTANT: 畫像には、木製のテーブルの上に置かれた、たこ焼き器で焼かれた3つのたこ焼きが映っています。たこ焼きは、小麥粉をベースにした生地を丸く焼き、中にタコや天かす、紅ショウガなどの具材を入れたものです。たこ焼きは、ソース、マヨネーズ、青海苔、かつおぶしをかけて食べることが多いです。

💻 使用示例

聊天模板

USER: <image>
{user_message1}
ASSISTANT: {assistant_message1}<|endoftext|>
USER: {user_message2}
ASSISTANT: {assistant_message2}<|endoftext|>
USER: {user_message3}
ASSISTANT: {assistant_message3}<|endoftext|>

📚 詳細文檔

模型詳情

屬性	詳情
模型規模	7B
模型類型	基於Transformer的視覺語言模型
支持語言	日語、英語
開發者	CyberAgent, Inc.
許可證	Apache-2.0

訓練信息

此模型是一個基於 LLaVA 1.5 的視覺語言指令跟隨模型。它使用 cyberagent/calm2-7b-chat 作為語言模型，google/siglip-so400m-patch14-384 作為圖像編碼器。在訓練過程中，第一階段是從零開始學習MLP投影，第二階段則對語言模型和MLP投影進行額外訓練。

視覺指令微調數據集

在視覺指令微調的第二階段，我們在一個關於圖像對話的數據集上進行訓練。這些對話數據是使用我們內部的大規模日語語言模型，基於 MS-COCO 和 VisualGenome 中的圖像、標題、對象標籤和邊界框生成的。有關不使用圖像生成視覺指令微調對話數據集的方法，請參考 LLaVA 1.5。

評估結果

LLaVA Bench In-the-wild

模型	詳情	對話	複雜情況	平均
llava-calm2-siglip	51.2	55.9	65.51	57.54
Japanese Stable VLM	26.02	24.84	29.18	26.68
SakanaAI EvoVLM-JP	49.59	65.49	54.22	56.43
Heron BLIP v1 (620k)	45.45	32.90	56.89	45.08
Heron GIT	40.98	39.87	54.59	45.15

LLaVA Bench In-the-wild 已翻譯成日語。

Heron-Bench

模型	詳情	對話	複雜情況	平均
llava-calm2-siglip	53.42	50.13	52.72	52.09
Japanese Stable VLM	25.15	51.23	37.84	38.07
SakanaAI EvoVLM-JP	50.31	44.42	40.47	45.07
Heron BLIP v1 (620k)	49.09	41.51	45.72	45.44
Heron GIT	42.77	54.20	43.53	46.83

Heron-Bench

使用與限制

預期用途

此模型旨在供開源社區用於視覺語言應用和學術研究。

限制和偏差

這個通用日語VLM模型在針對每個任務使用相關數據進行特定調優時才能達到最佳性能。雖然技術上可行，但商業使用時需謹慎，並且強烈建議在生產系統中部署時實施過濾不適當內容的機制。不建議將此模型用於可能對個人或群體造成潛在傷害或困擾的應用程序。CyberAgent明確聲明對使用此模型可能導致的直接、間接、特殊、偶然或後果性損害以及任何損失不承擔任何責任，無論結果如何。用戶在使用該模型之前必須充分了解這些限制。