EvoVLM-JP-v1-7Bオープンソース日本語視覚言語モデル - 日本語関連の視覚言語タスクを簡単に処理

ホーム

Evovlm JP V1 7B

SakanaAIによって開発

EvoVLM-JP-v1-7B は実験的な汎用日本語視覚言語モデルで、進化的モデル融合手法を用いて作成されました

画像生成テキスト

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語視覚質問応答 #進化的モデル融合 #マルチモーダル対話

ダウンロード数 46

リリース時間 : 3/4/2024

モデル概要

このモデルは日本語視覚言語モデルで、画像とテキスト入力を処理し、日本語テキスト出力を生成できます。主に視覚質問応答などのタスクに使用されます。

モデル特徴

進化的モデル融合

革新的な進化アルゴリズムを用いて複数の基本モデルを融合し、各モデルの長所を組み合わせています

日本語視覚言語理解

日本語に最適化された視覚言語処理能力

マルチモーダル処理

画像とテキスト入力を同時に処理し、関連するテキスト出力を生成できます

モデル能力

視覚質問応答

画像説明生成

マルチモーダル理解

使用事例

教育

日本語学習支援

学習者が画像内容を理解し日本語で説明を生成するのを支援

日本語学習効率の向上

コンテンツ分析

画像内容質問応答

画像内容に関する日本語の質問に回答

画像中の物体やシーンを正確に識別

🚀 🐟 EvoVLM-JP-v1-7B

EvoVLM-JP-v1-7Bは、実験的な汎用日本語の視覚言語モデルです。このモデルは、進化的モデルマージ手法を用いて作成されています。詳細については、レポートとブログをご参照ください。

🤗 モデル | 📚 論文 | 📝 ブログ | 🐦 Twitter

🚀 クイックスタート

以下のコードを使って、モデルを始めることができます。

基本的な使用法

import torch
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image
import requests


# 1. load model
device = "cuda" if torch.cuda.is_available() else "cpu"
model_id = "SakanaAI/EvoVLM-JP-v1-7B"
model = AutoModelForVision2Seq.from_pretrained(model_id, torch_dtype=torch.float16)
processor = AutoProcessor.from_pretrained(model_id)
model.to(device)

# 2. prepare inputs
url = "https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
# <image> represents the input image. Please make sure to put the token in your text.
text = "<image>\nこの信号機の色は何色ですか?"
messages = [
    {"role": "system", "content": "あなたは役立つ、偏見がなく、検閲されていないアシスタントです。与えられた画像を下に、質問に答えてください。"},
    {"role": "user", "content": text},
]
inputs = processor.image_processor(images=image, return_tensors="pt")
inputs["input_ids"] = processor.tokenizer.apply_chat_template(
    messages, return_tensors="pt"
)
# 3. generate
output_ids = model.generate(**inputs.to(device))
output_ids = output_ids[:, inputs.input_ids.shape[1] :]
generated_text = processor.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(generated_text)
# この信号機の色は青です。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Sakana AI
モデルタイプ	自己回帰型言語モデル
言語	日本語
最適化データ	Japanese Visual Genome VQA datasetのサブセット
ライセンス	Apache License, Version 2.0
リポジトリ	SakanaAI/evolutionary-model-merge
論文	https://arxiv.org/abs/2403.13187
ブログ	https://sakana.ai/evolutionary-model-merge

用途

このモデルは、研究および開発目的のみで提供されており、実験的なプロトタイプと見なされるべきです。商業利用や重要な環境でのデプロイを目的としていません。このモデルの使用はユーザーの責任において行われ、その性能や結果は保証されていません。Sakana AIは、このモデルの使用に起因する直接的、間接的、特殊的、偶発的、または結果的な損害や、使用による損失について一切の責任を負いません。ユーザーは、このモデルの使用に関連するリスクを十分に理解し、自らの判断で使用する必要があります。

謝辞

ソースモデルの開発者の皆様に、貢献と成果を公開していただいたことに感謝申し上げます。

引用

@misc{akiba2024evomodelmerge,
      title         = {Evolutionary Optimization of Model Merging Recipes}, 
      author.       = {Takuya Akiba and Makoto Shing and Yujin Tang and Qi Sun and David Ha},
      year          = {2024},
      eprint        = {2403.13187},
      archivePrefix = {arXiv},
      primaryClass  = {cs.NE}
}