japanese-instructblip-alpha开源视觉语言模型 - 免费为图像生成日语描述

首页

Japanese Instructblip Alpha

由 stabilityai 开发

一个视觉语言指令跟随模型，能够为输入图像和可选的输入文本生成日语描述

图像生成文本

Transformers

日语开源协议:其他 #日语图像描述生成 #视觉语言指令跟随 #多模态AI

下载量 141

发布时间 : 8/15/2023

模型简介

日本指令BLIP Alpha版是基于指令BLIP架构的视觉语言模型，专门针对日语优化，能够根据图像和文本提示生成描述性内容。

模型特点

日语优化

专门针对日语进行优化，能够生成高质量的日语描述

多模态输入

支持同时处理图像和文本输入，实现更灵活的交互

指令跟随

能够理解并遵循用户指令，生成符合要求的输出

轻量级训练

仅训练Q-Former部分，视觉编码器和LLM保持冻结状态

模型能力

图像描述生成

视觉问答

多模态理解

日语文本生成

使用案例

内容生成

图像描述生成

为输入的图像生成详细的日语描述

例如输入一张东京天空树的照片，输出'桜と東京スカイツリー'

辅助工具

视觉问答

回答关于图像内容的特定问题

🚀 日本版InstructBLIP Alpha

日本版InstructBLIP Alpha是一款视觉语言指令跟随模型，能够为输入的图像以及可选的输入文本（如问题）生成日语描述。

🚀 快速开始

首先，安装requirements.txt文件中的额外依赖项：

pip install sentencepiece einops

import torch
from transformers import LlamaTokenizer, AutoModelForVision2Seq, BlipImageProcessor
from PIL import Image
import requests

# helper function to format input prompts
def build_prompt(prompt="", sep="\n\n### "):
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    user_query = "与えられた画像について、詳細に述べてください。"
    msgs = [": \n" + user_query, ": "]
    if prompt:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + prompt)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p

# load model
model = AutoModelForVision2Seq.from_pretrained("stabilityai/japanese-instructblip-alpha", trust_remote_code=True)
processor = BlipImageProcessor.from_pretrained("stabilityai/japanese-instructblip-alpha")
tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

# prepare inputs
url = "https://images.unsplash.com/photo-1582538885592-e70a5d7ab3d3?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1770&q=80"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = "" # input empty string for image captioning. You can also input questions as prompts 
prompt = build_prompt(prompt)
inputs = processor(images=image, return_tensors="pt")
text_encoding = tokenizer(prompt, add_special_tokens=False, return_tensors="pt")
text_encoding["qformer_input_ids"] = text_encoding["input_ids"].clone()
text_encoding["qformer_attention_mask"] = text_encoding["attention_mask"].clone()
inputs.update(text_encoding)

# generate
outputs = model.generate(
    **inputs.to(device, dtype=model.dtype),
    num_beams=5,
    max_new_tokens=32,
    min_length=1,
)
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)
# 桜と東京スカイツリー

✨ 主要特性

视觉语言处理：能够处理图像和文本输入，为图像生成日语描述。
指令跟随：可以根据输入的指令生成相应的输出。

📦 安装指南

见快速开始部分，安装requirements.txt文件中的额外依赖项：

pip install sentencepiece einops

💻 使用示例

基础用法

import torch
from transformers import LlamaTokenizer, AutoModelForVision2Seq, BlipImageProcessor
from PIL import Image
import requests

# helper function to format input prompts
def build_prompt(prompt="", sep="\n\n### "):
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    user_query = "与えられた画像について、詳細に述べてください。"
    msgs = [": \n" + user_query, ": "]
    if prompt:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + prompt)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p

# load model
model = AutoModelForVision2Seq.from_pretrained("stabilityai/japanese-instructblip-alpha", trust_remote_code=True)
processor = BlipImageProcessor.from_pretrained("stabilityai/japanese-instructblip-alpha")
tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

# prepare inputs
url = "https://images.unsplash.com/photo-1582538885592-e70a5d7ab3d3?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1770&q=80"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = "" # input empty string for image captioning. You can also input questions as prompts 
prompt = build_prompt(prompt)
inputs = processor(images=image, return_tensors="pt")
text_encoding = tokenizer(prompt, add_special_tokens=False, return_tensors="pt")
text_encoding["qformer_input_ids"] = text_encoding["input_ids"].clone()
text_encoding["qformer_attention_mask"] = text_encoding["attention_mask"].clone()
inputs.update(text_encoding)

# generate
outputs = model.generate(
    **inputs.to(device, dtype=model.dtype),
    num_beams=5,
    max_new_tokens=32,
    min_length=1,
)
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)
# 桜と東京スカイツリー

📚 详细文档

模型详情

属性	详情
开发者	Stability AI
模型类型	InstructBLIP
语言	日语
许可证	JAPANESE STABLELM RESEARCH LICENSE AGREEMENT

训练

日本版InstructBLIP Alpha采用了InstructBLIP架构，由三个组件组成：一个冻结的视觉图像编码器、一个Q-Former和一个冻结的大语言模型（LLM）。视觉编码器和Q-Former使用Salesforce/instructblip-vicuna-7b进行初始化。对于冻结的LLM，则使用了Japanese-StableLM-Instruct-Alpha-7B模型。在训练过程中，仅对Q-Former进行训练。

训练数据集

训练数据集包括以下公开数据集：

CC12M，其字幕已翻译成日语。
MS-COCO，搭配STAIR Captions。
Japanese Visual Genome VQA dataset

使用与限制

预期用途

该模型旨在供开源社区在遵循研究许可证的前提下，用于类似聊天的应用程序。

限制与偏差

尽管上述数据集有助于引导基础语言模型生成更“安全”的文本分布，但并非所有的偏差和毒性都能通过微调得到缓解。我们提醒用户注意生成响应中可能出现的此类潜在问题。请勿将模型输出视为人类判断的替代品或事实来源，请谨慎使用。

🔧 技术细节

日本版InstructBLIP Alpha采用了InstructBLIP架构，在训练时仅对Q-Former进行训练，利用多个公开数据集进行微调，以实现为图像和文本输入生成日语描述的功能。

📄 许可证

本模型遵循JAPANESE STABLELM RESEARCH LICENSE AGREEMENT。

📚 引用方式

@misc{JapaneseInstructBLIPAlpha, 
    url    = {[https://huggingface.co/stabilityai/japanese-instructblip-alpha](https://huggingface.co/stabilityai/japanese-instructblip-alpha)}, 
    title  = {Japanese InstructBLIP Alpha}, 
    author = {Shing, Makoto and Akiba, Takuya}
}

📚 参考文献

@misc{dai2023instructblip,
    title         = {InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning}, 
    author        = {Wenliang Dai and Junnan Li and Dongxu Li and Anthony Meng Huat Tiong and Junqi Zhao and Weisheng Wang and Boyang Li and Pascale Fung and Steven Hoi},
    year          = {2023},
    eprint        = {2305.06500},
    archivePrefix = {arXiv},
    primaryClass  = {cs.CV}
}