heron-chat-git-ja-stablelm-base-7b-v1開源視覺語言模型

首頁

Heron Chat Git Ja Stablelm Base 7b V1

由turing-motors開發

一款能夠就輸入圖像進行對話的視覺語言模型，支持日語交互

圖像生成文本

Transformers

日語#日語視覺對話 #圖像描述生成 #多模態問答

下載量 54

發布時間 : 3/29/2024

模型概述

該模型是基於GIT架構的視覺語言模型，能夠理解圖像內容並進行日語對話。主要用於圖像描述生成和視覺問答任務。

模型特點

視覺語言理解

能夠理解圖像內容並生成相關文本描述

日語對話能力

專門針對日語優化的對話生成能力

端到端訓練

視覺編碼器和語言模型聯合訓練，提高理解能力

模型能力

圖像理解

日語對話

視覺問答

圖像描述生成

使用案例

聊天應用

圖像對話

用戶上傳圖片後與模型進行關於圖片內容的對話

模型能理解圖片內容並生成相關回答

輔助工具

圖像描述生成

為視覺障礙用戶生成圖片的文字描述

提供準確的圖片內容描述

🚀 Heron GIT 日語 StableLM Base 7B

Heron GIT 日語 StableLM Base 7B 是一款視覺語言模型，能夠針對輸入的圖像進行對話交流，為圖像理解和交互提供了新的可能。

🚀 快速開始

你可以按照安裝指南進行操作。

import torch
from heron.models.git_llm.git_japanese_stablelm_alpha import GitJapaneseStableLMAlphaForCausalLM
from transformers import AutoProcessor, LlamaTokenizer

device_id = 0
device = f"cuda:{device_id}"

MODEL_NAME = "turing-motors/heron-chat-git-ja-stablelm-base-7b-v1"
    
model = GitJapaneseStableLMAlphaForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, ignore_mismatched_sizes=True
)
model.eval()
model.to(device)

# prepare a processor
processor = AutoProcessor.from_pretrained(MODEL_NAME)
tokenizer = LlamaTokenizer.from_pretrained(
    "novelai/nerdstash-tokenizer-v1",
    padding_side="right",
    additional_special_tokens=["▁▁"],
)
processor.tokenizer = tokenizer


import requests
from PIL import Image

# prepare inputs
url = "https://www.barnorama.com/wp-content/uploads/2016/12/03-Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw)

text = f"##human: この畫像の面白い點は何ですか?\n##gpt: "

# do preprocessing
inputs = processor(
    text=text,
    images=image,
    return_tensors="pt",
    truncation=True,
)

inputs = {k: v.to(device) for k, v in inputs.items()}

# do inference
with torch.no_grad():
    out = model.generate(**inputs, max_length=256, do_sample=False, temperature=0., no_repeat_ngram_size=2)

# print result
print(processor.tokenizer.batch_decode(out))

✨ 主要特性

Heron GIT 日語 StableLM Base 7B 是一款視覺語言模型，能夠針對輸入的圖像進行對話交流。該模型使用 heron 庫進行訓練，具體細節請參考代碼。

📚 詳細文檔

模型詳情

開發者：圖靈公司
適配器類型：GIT
語言模型：日語 StableLM Base Alpha
支持語言：日語

訓練情況

GIT 適配器使用 LLaVA-Pratrain-JA 進行訓練。
大語言模型（LLM）和適配器使用 LLaVA-Instruct-620K-JA-v2 進行全量微調。

訓練數據集

LLaVA-Pratrain-JA
LLaVA-Instruct-620K-JA-v2

🔧 技術細節

使用與限制

預期用途

此模型旨在用於類似聊天的應用程序以及研究目的。

侷限性

該模型可能會產生不準確或虛假的信息，其準確性無法保證，目前仍處於研發階段。

引用方式

@misc{inoue2024heronbench,
      title={Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese}, 
      author={Yuichi Inoue and Kento Sasaki and Yuma Ochi and Kazuki Fujii and Kotaro Tanahashi and Yu Yamaguchi},
      year={2024},
      eprint={2404.07824},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}