heron-chat-git-ja-stablelm-base-7b-v1オープンソース視覚言語モデル - 日本語と画像対話インタラクションをサポート

ホーム

Heron Chat Git Ja Stablelm Base 7b V1

turing-motorsによって開発

入力画像について対話可能なビジュアル言語モデルで、日本語インタラクションをサポート

画像生成テキスト

Transformers

日本語#日本語ビジュアルダイアログ #画像キャプション生成 #マルチモーダルQA

ダウンロード数 54

リリース時間 : 3/29/2024

モデル概要

このモデルはGITアーキテクチャに基づくビジュアル言語モデルで、画像内容を理解し日本語で対話できます。主に画像キャプション生成と視覚的質問応答タスクに使用されます。

モデル特徴

ビジュアル言語理解

画像内容を理解し関連するテキスト記述を生成可能

日本語対話能力

日本語に特化して最適化された対話生成能力

エンドツーエンドトレーニング

ビジュアルエンコーダと言語モデルの共同訓練により理解力を向上

モデル能力

画像理解

日本語対話

視覚的質問応答

画像キャプション生成

使用事例

チャットアプリ

画像対話

ユーザーが画像をアップロード後、画像内容についてモデルと対話

モデルは画像内容を理解し関連する回答を生成

支援ツール

画像キャプション生成

視覚障害者向けに画像の文字説明を生成

正確な画像内容の説明を提供

🚀 Heron GIT Japanese StableLM Base 7B

このモデルは、入力画像について会話できるビジョン言語モデルです。画像に関する自然言語処理タスクに役立ちます。

🚀 クイックスタート

Heron GIT Japanese StableLM Base 7Bを使用するには、まずインストールガイドに従って環境をセットアップします。

💻 使用例

基本的な使用法

import torch
from heron.models.git_llm.git_japanese_stablelm_alpha import GitJapaneseStableLMAlphaForCausalLM
from transformers import AutoProcessor, LlamaTokenizer

device_id = 0
device = f"cuda:{device_id}"

MODEL_NAME = "turing-motors/heron-chat-git-ja-stablelm-base-7b-v1"
    
model = GitJapaneseStableLMAlphaForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, ignore_mismatched_sizes=True
)
model.eval()
model.to(device)

# prepare a processor
processor = AutoProcessor.from_pretrained(MODEL_NAME)
tokenizer = LlamaTokenizer.from_pretrained(
    "novelai/nerdstash-tokenizer-v1",
    padding_side="right",
    additional_special_tokens=["▁▁"],
)
processor.tokenizer = tokenizer


import requests
from PIL import Image

# prepare inputs
url = "https://www.barnorama.com/wp-content/uploads/2016/12/03-Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw)

text = f"##human: この画像の面白い点は何ですか?\n##gpt: "

# do preprocessing
inputs = processor(
    text=text,
    images=image,
    return_tensors="pt",
    truncation=True,
)

inputs = {k: v.to(device) for k, v in inputs.items()}

# do inference
with torch.no_grad():
    out = model.generate(**inputs, max_length=256, do_sample=False, temperature=0., no_repeat_ngram_size=2)

# print result
print(processor.tokenizer.batch_decode(out))

📚 ドキュメント

モデルの詳細

開発元: Turing Inc.
アダプタータイプ: GIT
言語モデル: Japanese StableLM Base Alpha
言語: 日本語

学習について

GITアダプターはLLaVA-Pratrain-JAで学習されました。
LLMとアダプターはLLaVA-Instruct-620K-JA-v2で完全にファインチューニングされました。

学習データセット

LLaVA-Pratrain-JA
LLaVA-Instruct-620K-JA-v2

使用目的と制限事項

想定される使用目的

このモデルは、チャットアプリケーションや研究目的での使用を想定しています。

制限事項

このモデルは不正確または誤った情報を生成する可能性があり、その精度は保証されません。まだ研究開発段階にあります。

引用方法

@misc{inoue2024heronbench,
      title={Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese}, 
      author={Yuichi Inoue and Kento Sasaki and Yuma Ochi and Kazuki Fujii and Kotaro Tanahashi and Yu Yamaguchi},
      year={2024},
      eprint={2404.07824},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}