🚀 llava-calm2-siglip
llava-calm2-siglip 是一款實驗性的視覺語言模型,能夠用日語回答關於圖像的問題,為圖像理解和交互提供了新的解決方案。
🚀 快速開始
llava-calm2-siglip 是一個可以用日語回答有關圖像問題的實驗性視覺語言模型。以下是使用該模型的基本步驟。
基礎用法
from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration
import torch
model = LlavaForConditionalGeneration.from_pretrained(
"cyberagent/llava-calm2-siglip",
torch_dtype=torch.bfloat16,
).to(0)
processor = AutoProcessor.from_pretrained("cyberagent/llava-calm2-siglip")
prompt = """USER: <image>
この畫像を説明してください。
ASSISTANT: """
url = "https://unsplash.com/photos/LipkIP4fXbM/download?force=true&w=640"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
inputs = processor(text=prompt, images=image, return_tensors="pt").to(0, torch.bfloat16)
generate_ids = model.generate(**inputs,
max_length=500,
do_sample=True,
temperature=0.2,
)
output = processor.tokenizer.decode(generate_ids[0][:-1], clean_up_tokenization_spaces=False)
print(output)
💻 使用示例
聊天模板
USER: <image>
{user_message1}
ASSISTANT: {assistant_message1}<|endoftext|>
USER: {user_message2}
ASSISTANT: {assistant_message2}<|endoftext|>
USER: {user_message3}
ASSISTANT: {assistant_message3}<|endoftext|>
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型規模 |
7B |
模型類型 |
基於Transformer的視覺語言模型 |
支持語言 |
日語、英語 |
開發者 |
CyberAgent, Inc. |
許可證 |
Apache-2.0 |
訓練信息
此模型是一個基於 LLaVA 1.5 的視覺語言指令跟隨模型。它使用 cyberagent/calm2-7b-chat 作為語言模型,google/siglip-so400m-patch14-384 作為圖像編碼器。在訓練過程中,第一階段是從零開始學習MLP投影,第二階段則對語言模型和MLP投影進行額外訓練。
視覺指令微調數據集
在視覺指令微調的第二階段,我們在一個關於圖像對話的數據集上進行訓練。這些對話數據是使用我們內部的大規模日語語言模型,基於 MS-COCO 和 VisualGenome 中的圖像、標題、對象標籤和邊界框生成的。有關不使用圖像生成視覺指令微調對話數據集的方法,請參考 LLaVA 1.5。
評估結果
LLaVA Bench In-the-wild
Heron-Bench
使用與限制
預期用途
此模型旨在供開源社區用於視覺語言應用和學術研究。
限制和偏差
這個通用日語VLM模型在針對每個任務使用相關數據進行特定調優時才能達到最佳性能。雖然技術上可行,但商業使用時需謹慎,並且強烈建議在生產系統中部署時實施過濾不適當內容的機制。不建議將此模型用於可能對個人或群體造成潛在傷害或困擾的應用程序。CyberAgent明確聲明對使用此模型可能導致的直接、間接、特殊、偶然或後果性損害以及任何損失不承擔任何責任,無論結果如何。用戶在使用該模型之前必須充分了解這些限制。
作者
Aozora Inagaki
📄 許可證
本項目採用 Apache-2.0 許可證。