🚀 Heron GIT 日語 StableLM Base 7B
Heron GIT 日語 StableLM Base 7B 是一款視覺語言模型,能夠針對輸入的圖像進行對話交流,為圖像理解和交互提供了新的可能。
🚀 快速開始
你可以按照 安裝指南 進行操作。
import torch
from heron.models.git_llm.git_japanese_stablelm_alpha import GitJapaneseStableLMAlphaForCausalLM
from transformers import AutoProcessor, LlamaTokenizer
device_id = 0
device = f"cuda:{device_id}"
MODEL_NAME = "turing-motors/heron-chat-git-ja-stablelm-base-7b-v1"
model = GitJapaneseStableLMAlphaForCausalLM.from_pretrained(
MODEL_NAME, torch_dtype=torch.float16, ignore_mismatched_sizes=True
)
model.eval()
model.to(device)
processor = AutoProcessor.from_pretrained(MODEL_NAME)
tokenizer = LlamaTokenizer.from_pretrained(
"novelai/nerdstash-tokenizer-v1",
padding_side="right",
additional_special_tokens=["▁▁"],
)
processor.tokenizer = tokenizer
import requests
from PIL import Image
url = "https://www.barnorama.com/wp-content/uploads/2016/12/03-Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw)
text = f"##human: この畫像の面白い點は何ですか?\n##gpt: "
inputs = processor(
text=text,
images=image,
return_tensors="pt",
truncation=True,
)
inputs = {k: v.to(device) for k, v in inputs.items()}
with torch.no_grad():
out = model.generate(**inputs, max_length=256, do_sample=False, temperature=0., no_repeat_ngram_size=2)
print(processor.tokenizer.batch_decode(out))
✨ 主要特性
Heron GIT 日語 StableLM Base 7B 是一款視覺語言模型,能夠針對輸入的圖像進行對話交流。該模型使用 heron 庫 進行訓練,具體細節請參考代碼。
📚 詳細文檔
模型詳情
訓練情況
- GIT 適配器使用 LLaVA-Pratrain-JA 進行訓練。
- 大語言模型(LLM)和適配器使用 LLaVA-Instruct-620K-JA-v2 進行全量微調。
訓練數據集
- LLaVA-Pratrain-JA
- LLaVA-Instruct-620K-JA-v2
🔧 技術細節
使用與限制
預期用途
此模型旨在用於類似聊天的應用程序以及研究目的。
侷限性
該模型可能會產生不準確或虛假的信息,其準確性無法保證,目前仍處於研發階段。
引用方式
@misc{inoue2024heronbench,
title={Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese},
author={Yuichi Inoue and Kento Sasaki and Yuma Ochi and Kazuki Fujii and Kotaro Tanahashi and Yu Yamaguchi},
year={2024},
eprint={2404.07824},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
📄 許可證
本項目採用 CC BY-NC 4.0 許可證。