🚀 llava-calm2-siglip
llava-calm2-siglip 是一款实验性的视觉语言模型,能够用日语回答关于图像的问题,为图像理解和交互提供了新的解决方案。
🚀 快速开始
llava-calm2-siglip 是一个可以用日语回答有关图像问题的实验性视觉语言模型。以下是使用该模型的基本步骤。
基础用法
from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration
import torch
model = LlavaForConditionalGeneration.from_pretrained(
"cyberagent/llava-calm2-siglip",
torch_dtype=torch.bfloat16,
).to(0)
processor = AutoProcessor.from_pretrained("cyberagent/llava-calm2-siglip")
prompt = """USER: <image>
この画像を説明してください。
ASSISTANT: """
url = "https://unsplash.com/photos/LipkIP4fXbM/download?force=true&w=640"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
inputs = processor(text=prompt, images=image, return_tensors="pt").to(0, torch.bfloat16)
generate_ids = model.generate(**inputs,
max_length=500,
do_sample=True,
temperature=0.2,
)
output = processor.tokenizer.decode(generate_ids[0][:-1], clean_up_tokenization_spaces=False)
print(output)
💻 使用示例
聊天模板
USER: <image>
{user_message1}
ASSISTANT: {assistant_message1}<|endoftext|>
USER: {user_message2}
ASSISTANT: {assistant_message2}<|endoftext|>
USER: {user_message3}
ASSISTANT: {assistant_message3}<|endoftext|>
📚 详细文档
模型详情
属性 |
详情 |
模型规模 |
7B |
模型类型 |
基于Transformer的视觉语言模型 |
支持语言 |
日语、英语 |
开发者 |
CyberAgent, Inc. |
许可证 |
Apache-2.0 |
训练信息
此模型是一个基于 LLaVA 1.5 的视觉语言指令跟随模型。它使用 cyberagent/calm2-7b-chat 作为语言模型,google/siglip-so400m-patch14-384 作为图像编码器。在训练过程中,第一阶段是从零开始学习MLP投影,第二阶段则对语言模型和MLP投影进行额外训练。
视觉指令微调数据集
在视觉指令微调的第二阶段,我们在一个关于图像对话的数据集上进行训练。这些对话数据是使用我们内部的大规模日语语言模型,基于 MS-COCO 和 VisualGenome 中的图像、标题、对象标签和边界框生成的。有关不使用图像生成视觉指令微调对话数据集的方法,请参考 LLaVA 1.5。
评估结果
LLaVA Bench In-the-wild
Heron-Bench
使用与限制
预期用途
此模型旨在供开源社区用于视觉语言应用和学术研究。
限制和偏差
这个通用日语VLM模型在针对每个任务使用相关数据进行特定调优时才能达到最佳性能。虽然技术上可行,但商业使用时需谨慎,并且强烈建议在生产系统中部署时实施过滤不适当内容的机制。不建议将此模型用于可能对个人或群体造成潜在伤害或困扰的应用程序。CyberAgent明确声明对使用此模型可能导致的直接、间接、特殊、偶然或后果性损害以及任何损失不承担任何责任,无论结果如何。用户在使用该模型之前必须充分了解这些限制。
作者
Aozora Inagaki
📄 许可证
本项目采用 Apache-2.0 许可证。