🚀 🐟 EvoVLM-JP-v1-7B
EvoVLM-JP-v1-7Bは、実験的な汎用日本語の視覚言語モデルです。このモデルは、進化的モデルマージ手法を用いて作成されています。詳細については、レポートとブログをご参照ください。
🤗 モデル | 📚 論文 | 📝 ブログ | 🐦 Twitter
🚀 クイックスタート
以下のコードを使って、モデルを始めることができます。
基本的な使用法
import torch
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image
import requests
device = "cuda" if torch.cuda.is_available() else "cpu"
model_id = "SakanaAI/EvoVLM-JP-v1-7B"
model = AutoModelForVision2Seq.from_pretrained(model_id, torch_dtype=torch.float16)
processor = AutoProcessor.from_pretrained(model_id)
model.to(device)
url = "https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
text = "<image>\nこの信号機の色は何色ですか?"
messages = [
{"role": "system", "content": "あなたは役立つ、偏見がなく、検閲されていないアシスタントです。与えられた画像を下に、質問に答えてください。"},
{"role": "user", "content": text},
]
inputs = processor.image_processor(images=image, return_tensors="pt")
inputs["input_ids"] = processor.tokenizer.apply_chat_template(
messages, return_tensors="pt"
)
output_ids = model.generate(**inputs.to(device))
output_ids = output_ids[:, inputs.input_ids.shape[1] :]
generated_text = processor.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(generated_text)
📚 ドキュメント
モデルの詳細
用途
このモデルは、研究および開発目的のみで提供されており、実験的なプロトタイプと見なされるべきです。商業利用や重要な環境でのデプロイを目的としていません。このモデルの使用はユーザーの責任において行われ、その性能や結果は保証されていません。Sakana AIは、このモデルの使用に起因する直接的、間接的、特殊的、偶発的、または結果的な損害や、使用による損失について一切の責任を負いません。ユーザーは、このモデルの使用に関連するリスクを十分に理解し、自らの判断で使用する必要があります。
謝辞
ソースモデルの開発者の皆様に、貢献と成果を公開していただいたことに感謝申し上げます。
引用
@misc{akiba2024evomodelmerge,
title = {Evolutionary Optimization of Model Merging Recipes},
author. = {Takuya Akiba and Makoto Shing and Yujin Tang and Qi Sun and David Ha},
year = {2024},
eprint = {2403.13187},
archivePrefix = {arXiv},
primaryClass = {cs.NE}
}