Heron GIT Japanese StableLM Base 7B开源视觉语言模型

首页

Heron Chat Git Ja Stablelm Base 7b V0

由 turing-motors 开发

Heron GIT Japanese StableLM Base 7B 是一个能够就输入图像进行对话的视觉语言模型。

图像生成文本

Transformers

日语#日语视觉对话 #图像描述生成 #多模态问答

下载量 57

发布时间 : 9/6/2023

模型简介

该模型是一个视觉语言模型，能够根据输入的图像进行对话，主要用于日语环境下的图像理解和问答任务。

模型特点

日语视觉语言理解

专门针对日语环境优化的视觉语言模型，能够理解图像内容并用日语进行描述和问答。

两阶段训练

先在STAIR Captions上进行预训练，然后在LLaVA-Instruct-150K-JA和Japanese Visual Genome上进行微调。

基于StableLM

使用Japanese StableLM Base Alpha作为语言模型基础，具有良好的日语理解和生成能力。

模型能力

图像描述生成

视觉问答

日语对话

图像内容理解

使用案例

聊天应用

图像对话机器人

用户上传图片后，模型可以就图片内容进行对话和问答。

能够生成与图片内容相关的日语回答。

研究

视觉语言模型研究

可用于日语环境下视觉语言理解的研究和实验。

🚀 Heron GIT 日语 StableLM Base 7B

Heron GIT 日语 StableLM Base 7B 是一款视觉语言模型，能够针对输入的图像进行对话交流，为图像相关的交互与研究提供了有力支持。

🚀 快速开始

你可以按照安装指南进行操作。

✨ 主要特性

Heron GIT 日语 StableLM Base 7B 作为视觉语言模型，可就输入图像进行对话。
该模型使用 the heron library 进行训练。

📦 安装指南

请参考安装指南完成安装。

💻 使用示例

基础用法

import requests
from PIL import Image

import torch
from transformers import AutoProcessor
from heron.models.git_llm.git_japanese_stablelm_alpha import GitJapaneseStableLMAlphaForCausalLM

device_id = 0

# prepare a pretrained model
model = GitJapaneseStableLMAlphaForCausalLM.from_pretrained(
    'turing-motors/heron-chat-git-ja-stablelm-base-7b-v0', torch_dtype=torch.float16
)
model.eval()
model.to(f"cuda:{device_id}")

# prepare a processor
processor = AutoProcessor.from_pretrained('turing-motors/heron-chat-git-ja-stablelm-base-7b-v0')

# prepare inputs
url = "https://www.barnorama.com/wp-content/uploads/2016/12/03-Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw)

text = f"##human: これは何の写真ですか？\n##gpt: "

# do preprocessing
inputs = processor(
    text,
    image,
    return_tensors="pt",
    truncation=True,
)
inputs = {k: v.to(f"cuda:{device_id}") for k, v in inputs.items()}

# set eos token
eos_token_id_list = [
    processor.tokenizer.pad_token_id,
    processor.tokenizer.eos_token_id,
]

# do inference
with torch.no_grad():
    out = model.generate(**inputs, max_length=256, do_sample=False, temperature=0., eos_token_id=eos_token_id_list)

# print result
print(processor.tokenizer.batch_decode(out)[0])

📚 详细文档

模型详情

属性	详情
开发者	Turing Inc.
适配器类型	GIT
语言模型	Japanese StableLM Base Alpha
语言	日语

训练情况

该模型首先使用适配器结合 STAIR Captions 进行训练。在第二阶段，使用 LoRA 结合 LLaVA - Instruct - 150K - JA 和日语视觉基因组进行微调。

训练数据集

使用与限制

预期用途

该模型旨在用于类似聊天的应用程序以及研究目的。

限制

模型可能会产生不准确或错误的信息，其准确性无法保证，目前仍处于研究和开发阶段。

如何引用

@misc{GitJapaneseStableLM, 
    url    = {[https://huggingface.co/turing-motors/heron-chat-git-ja-stablelm-base-7b-v0](https://huggingface.co/turing-motors/heron-chat-git-ja-stablelm-base-7b-v0)}, 
    title  = {Heron GIT Japanese StableLM Base 7B}, 
    author = {Yuichi Inoue, Kotaro Tanahashi, and Yu Yamaguchi}
}

引用文献

@misc{JapaneseInstructBLIPAlpha, 
    url    = {[https://huggingface.co/stabilityai/japanese-instructblip-alpha](https://huggingface.co/stabilityai/japanese-instructblip-alpha)}, 
    title  = {Japanese InstructBLIP Alpha}, 
    author = {Shing, Makoto and Akiba, Takuya}
}