japanese-stable-vlm開源視覺語言模型 - 免費為圖像生成日語描述及處理文本

首頁

Japanese Stable Vlm

由stabilityai開發

一款視覺語言指令跟隨模型，能夠為輸入圖像生成日語描述，並可選地處理輸入文本（如問題）。

圖像生成文本

Transformers

日語開源協議:其他 #日語圖像描述 #視覺問答系統 #多模態指令跟隨

下載量 122

發布時間 : 11/1/2023

模型概述

日語穩定視覺語言模型是一款結合視覺與語言處理能力的模型，主要用於圖像描述生成和視覺問答任務，特別針對日語場景優化。

模型特點

日語視覺語言理解

專門針對日語優化的視覺語言處理能力，能夠準確理解日語指令和生成日語描述

多任務支持

支持圖像描述生成、標籤輔助描述和視覺問答等多種視覺語言任務

兩階段訓練

採用兩階段訓練策略，先訓練MLP投影層，再微調語言模型和投影層，提高模型性能

模型能力

圖像描述生成

視覺問答

日語文本處理

多模態理解

使用案例

內容生成

圖像自動標註

為圖像生成詳細的日語描述

生成符合圖像內容的自然語言描述

智能問答

視覺問答系統

回答關於圖像內容的日語問題

提供準確的圖像相關問答

🚀 日本穩定視覺語言模型（Japanese Stable VLM）

日本穩定視覺語言模型（Japanese Stable VLM）是一款視覺語言指令跟隨模型，能夠為輸入的圖像以及可選的輸入文本（如問題）生成日語描述，可廣泛應用於圖像描述生成等視覺語言相關場景。

🚀 快速開始

請注意：如需商業使用此模型，請查看 https://stability.ai/license。

若您有關於商業使用的日語諮詢，請發送郵件至 partners-jp@stability.ai。

✨ 主要特性

日本穩定視覺語言模型（Japanese Stable VLM）是一個視覺語言指令跟隨模型，它可以為輸入的圖像和可選的輸入文本（如問題）生成日語描述。

📦 安裝指南

文檔中未提及具體安裝步驟，暫無法提供。

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq, AutoImageProcessor
from PIL import Image
import requests

# helper function to format input prompts
TASK2INSTRUCTION = {
    "caption": "畫像を詳細に述べてください。",
    "tag": "與えられた単語を使って、畫像を詳細に述べてください。",
    "vqa": "與えられた畫像を下に、質問に答えてください。",
}


def build_prompt(task="caption", input=None, sep="\n\n### "):
    assert (
        task in TASK2INSTRUCTION
    ), f"Please choose from {list(TASK2INSTRUCTION.keys())}"
    if task in ["tag", "vqa"]:
        assert input is not None, "Please fill in `input`!"
        if task == "tag" and isinstance(input, list):
            input = "、".join(input)
    else:
        assert input is None, f"`{task}` mode doesn't support to input questions"
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    instruction = TASK2INSTRUCTION[task]
    msgs = [": \n" + instruction, ": \n"]
    if input:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + input)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p

# load model
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForVision2Seq.from_pretrained("stabilityai/japanese-stable-vlm", trust_remote_code=True)
processor = AutoImageProcessor.from_pretrained("stabilityai/japanese-stable-vlm")
tokenizer = AutoTokenizer.from_pretrained("stabilityai/japanese-stable-vlm")
model.to(device)

# prepare inputs
url = "https://images.unsplash.com/photo-1582538885592-e70a5d7ab3d3?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1770&q=80"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = build_prompt(task="caption")
# prompt = build_prompt(task="tag", input=["河津桜", "青空"])
# prompt = build_prompt(task="vqa", input="季節はいつですか？")

inputs = processor(images=image, return_tensors="pt")
text_encoding = tokenizer(prompt, add_special_tokens=False, return_tensors="pt")
inputs.update(text_encoding)

# generate
outputs = model.generate(
    **inputs.to(device, dtype=model.dtype),
    do_sample=False,
    num_beams=5,
    max_new_tokens=128,
    min_length=1,
    repetition_penalty=1.5,
)
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)
# 桜越しの東京スカイツリー

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Stability AI
模型類型	自迴歸視覺語言模型
語言	日語
許可證	STABILITY AI 社區許可證

訓練

該模型是一個基於 LLaVA 1.5 架構的視覺語言指令跟隨模型。它使用 stabilityai/japanese-stablelm-instruct-gamma-7b 作為語言模型，openai/clip-vit-large-patch14 作為圖像編碼器。在訓練過程中，第一階段從零開始訓練 MLP 投影，第二階段進一步訓練語言模型和 MLP 投影。

訓練數據集

訓練數據集包括以下公共數據集：

CC12M，其字幕已翻譯成日語
MS-COCO，搭配 STAIR Captions
日語視覺基因組 VQA 數據集

使用與限制

預期用途

該模型旨在供開源社區用於視覺語言應用。

限制和偏差

儘管應用了數據過濾，但訓練數據集仍可能包含冒犯性或不適當的內容。我們建議用戶在生產系統中使用這些模型時保持合理的謹慎。請勿將該模型用於任何可能對個人或群體造成傷害或困擾的應用。

引用方式

@misc{JapaneseStableVLM, 
    url    = {[https://huggingface.co/stabilityai/japanese-stable-vlm](https://huggingface.co/stabilityai/japanese-stable-vlm)}, 
    title  = {Japanese Stable VLM}, 
    author = {Shing, Makoto and Akiba, Takuya}
}

聯繫信息

若您對模型有疑問或建議，請加入 Stable Community Japan。
如需瞭解 Stability AI 模型、研究和活動的未來公告/信息，請關注 https://twitter.com/StabilityAI_JP。
若您有商業和合作諮詢，請聯繫 partners-jp@stability.ai。關於商業和合作的諮詢，請發送郵件至 sales-jp@stability.ai。