heron-chat-blip-ja-stablelm-base-7b-v1-llava-620kオープンソースモデル - 日本語対応の画像対話インタラクションの神器

ホーム

Heron Chat Blip Ja Stablelm Base 7b V1 Llava 620k

turing-motorsによって開発

入力画像について対話可能な視覚言語モデルで、日本語インタラクションをサポート

画像生成テキスト

Transformers

日本語#日本語視覚質問応答 #画像対話生成 #マルチモーダル日本語処理

ダウンロード数 25

リリース時間 : 2/27/2024

モデル概要

このモデルはBLIP2アーキテクチャを基盤とし、日本語StableLMベースAlpha版言語モデルを統合、画像入力を処理し自然言語対話が可能

モデル特徴

日本語視覚対話

日本語に最適化された視覚質問応答能力

効率的なアーキテクチャ

BLIP2視覚エンコーダーとStableLM言語モデルの統合

包括的なファインチューニング

LLaVA-Instruct-620K-JAデータセットを使用してトレーニング

モデル能力

画像理解

日本語対話

視覚質問応答

画像キャプション生成

使用事例

チャットアプリケーション

画像対話ボット

ユーザーが画像をアップロード後、AIと画像内容について対話

画像内容を理解し関連する回答を生成可能

研究用途

マルチモーダル研究

視覚言語モデル関連研究に使用

🚀 Heron BLIP Japanese StableLM Base 7B llava - 620k

Heron BLIP Japanese StableLM Base 7Bは、入力された画像について会話することができるビジョン言語モデルです。このモデルは、画像に関する自然な会話を可能にし、画像キャプショニングやVQA（Visual Question Answering）などのタスクに役立ちます。

🚀 クイックスタート

Heron BLIP Japanese StableLM Base 7Bを使用するには、まずインストールガイドに従って環境をセットアップします。

💻 使用例

基本的な使用法

import torch
from heron.models.video_blip import VideoBlipForConditionalGeneration, VideoBlipProcessor
from transformers import LlamaTokenizer

device_id = 0
device = f"cuda:{device_id}"

MODEL_NAME = "turing-motors/heron-chat-blip-ja-stablelm-base-7b-v1"
    
model = VideoBlipForConditionalGeneration.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, ignore_mismatched_sizes=True
)

model = model.half()
model.eval()
model.to(device)

# prepare a processor
processor = VideoBlipProcessor.from_pretrained("Salesforce/blip2-opt-2.7b")
tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])
processor.tokenizer = tokenizer

import requests
from PIL import Image

# prepare inputs
url = "https://www.barnorama.com/wp-content/uploads/2016/12/03-Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw)

text = f"##human: この画像の面白い点は何ですか?\n##gpt: "

# do preprocessing
inputs = processor(
    text=text,
    images=image,
    return_tensors="pt",
    truncation=True,
)

inputs = {k: v.to(device) for k, v in inputs.items()}
inputs["pixel_values"] = inputs["pixel_values"].to(device, torch.float16)

# set eos token
eos_token_id_list = [
    processor.tokenizer.pad_token_id,
    processor.tokenizer.eos_token_id,
    int(tokenizer.convert_tokens_to_ids("##"))
]

# do inference
with torch.no_grad():
    out = model.generate(**inputs, max_length=256, do_sample=False, temperature=0., eos_token_id=eos_token_id_list, no_repeat_ngram_size=2)

# print result
print(processor.tokenizer.batch_decode(out))

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Turing Inc.
アダプタータイプ	BLIP2
言語モデル	Japanese StableLM Base Alpha
言語	日本語

学習

このモデルは、LLaVA - Instruct - 620K - JAを用いて完全にファインチューニングされました。

学習データセット

LLaVA - Instruct - 620K - JA

使用目的と制限事項

使用目的

このモデルは、チャットアプリケーションや研究目的での使用を想定しています。

制限事項

このモデルは、不正確または誤った情報を生成する可能性があり、その精度は保証されていません。また、まだ研究開発段階にあります。

引用方法

@misc{BlipJapaneseStableLM, 
    url    = {[https://huggingface.co/turing-motors/heron-chat-blip-ja-stablelm-base-7b-v0](https://huggingface.co/turing-motors/heron-chat-blip-ja-stablelm-base-7b-v0)}, 
    title  = {Heron BLIP Japanese StableLM Base 7B}, 
    author = {Kotaro Tanahashi, Yuichi Inoue, and Yu Yamaguchi}
}

参考文献

@misc{JapaneseInstructBLIPAlpha, 
    url    = {[https://huggingface.co/stabilityai/japanese-instructblip-alpha](https://huggingface.co/stabilityai/japanese-instructblip-alpha)}, 
    title  = {Japanese InstructBLIP Alpha}, 
    author = {Shing, Makoto and Akiba, Takuya}
}