Llama-3-EvoVLM-JP-v2開源日語視覺語言模型

首頁

Llama 3 EvoVLM JP V2

由SakanaAI開發

Llama-3-EvoVLM-JP-v2 是一款實驗性通用日語視覺語言模型，支持交錯輸入文本和圖像。該模型採用進化模型融合方法創建。

圖像生成文本

Transformers

日語#日語多模態 #圖文交錯處理 #進化模型融合

下載量 475

發布時間 : 7/29/2024

模型概述

Llama-3-EvoVLM-JP-v2 是一款支持日語的多模態視覺語言模型，能夠處理文本和圖像的混合輸入。它通過融合多個基礎模型的能力，實現了在日語環境下的視覺語言理解與生成。

模型特點

多模態能力

支持同時處理文本和圖像輸入，實現視覺語言理解

日語優化

專門針對日語環境進行優化，適合日語用戶使用

進化模型融合

採用創新的模型融合方法，結合多個優秀基礎模型的能力

交錯輸入支持

能夠處理文本和圖像交錯排列的複雜輸入

模型能力

圖像理解

日語文本生成

視覺問答

多模態推理

圖像描述生成

使用案例

內容理解

日語圖像描述

為日語環境下的圖像生成準確的文字描述

可生成符合日語表達習慣的圖像描述

視覺問答

回答關於圖像內容的日語問題

能夠理解圖像內容並用日語準確回答相關問題

教育

日語學習輔助

通過圖像和文本的交互幫助日語學習者

提供直觀的日語學習體驗

🚀 🐟 Llama-3-EvoVLM-JP-v2

Llama-3-EvoVLM-JP-v2 是一款實驗性的通用日語視覺語言模型（VLM），支持以交錯的文本和圖像作為輸入。該模型採用進化模型融合方法創建。更多詳細信息，請參考我們的報告和博客。此模型通過融合以下模型產生，我們感謝這些源模型的開發者。

🤗 模型 | 📚 論文 | 📝 博客 | 🐦 推特

🚀 快速開始

使用以下代碼開始使用該模型。

點擊展開

首先，你需要使用 Mantis 安裝推理所需的包。請參閱此處。

pip install git+https://github.com/TIGER-AI-Lab/Mantis.git

import requests
from PIL import Image

import torch
from mantis.models.conversation import Conversation, SeparatorStyle
from mantis.models.mllava import chat_mllava, LlavaForConditionalGeneration, MLlavaProcessor
from mantis.models.mllava.utils import conv_templates
from transformers import AutoTokenizer

# 1. 設置系統提示
conv_llama_3_elyza = Conversation(
    system="<|start_header_id|>system<|end_header_id|>\n\nあなたは誠実で優秀な日本人のアシスタントです。特に指示が無い場合は、常に日本語で回答してください。",
    roles=("user", "assistant"),
    messages=(),
    offset=0,
    sep_style=SeparatorStyle.LLAMA_3,
    sep="<|eot_id|>",
)
conv_templates["llama_3"] = conv_llama_3_elyza

# 2. 加載模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model_id = "SakanaAI/Llama-3-EvoVLM-JP-v2"

processor = MLlavaProcessor.from_pretrained("TIGER-Lab/Mantis-8B-siglip-llama3")
processor.tokenizer.pad_token = processor.tokenizer.eos_token

model = LlavaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.float16, device_map=device).eval()

# 3. 準備生成配置
generation_kwargs = {
    "max_new_tokens": 128,
    "num_beams": 1,
    "do_sample": False,
    "no_repeat_ngram_size": 3,
}

# 4. 生成
text = "<image>の信號は何色ですか？"
url_list = [
    "https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
    "https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
   Image.open(requests.get(url_list[0], stream=True).raw).convert("RGB")
]

response, history = chat_mllava(text, images, model, processor, **generation_kwargs)

print(response)
# 信號の色は、青色です。

# 5. 多輪對話
text = "では、<image>の信號は？"
images += [
   Image.open(requests.get(url_list[1], stream=True).raw).convert("RGB")
]
response, history = chat_mllava(text, images, model, processor, history=history, **generation_kwargs)

print(response)
# 赤色

📚 詳細文檔

模型詳情

開發者： Sakana AI
模型類型： 自迴歸語言模型
語言： 日語
優化數據： 日語視覺基因組VQA數據集的子集以及翻譯後的ShareGPT4V
許可證： META LLAMA 3 社區許可證
論文： https://arxiv.org/abs/2403.13187
博客： https://sakana.ai/evovlm-jp/

用途

此模型僅用於研究和開發目的，應被視為實驗性原型。它不適合用於商業用途或關鍵任務環境。使用此模型由用戶自行承擔風險，其性能和結果無法保證。Sakana AI 對因使用此模型而產生的任何直接、間接、特殊、偶然或後果性損害，或任何損失不承擔責任，無論獲得何種結果。用戶必須充分了解使用此模型的相關風險，並自行決定是否使用。

📄 許可證

本模型使用 META LLAMA 3 社區許可證。

🙏 致謝

我們感謝源模型的開發者所做出的貢獻，並感謝他們公開其工作成果。

📖 引用

@misc{Llama-3-EvoVLM-JP-v2, 
url    = {[https://huggingface.co/SakanaAI/Llama-3-EvoVLM-JP-v2](https://huggingface.co/SakanaAI/Llama-3-EvoVLM-JP-v2)}, 
title  = {Llama-3-EvoVLM-JP-v2}, 
author = {Yuichi, Inoue and Takuya, Akiba and Shing, Makoto}
}

@misc{akiba2024evomodelmerge,
      title         = {Evolutionary Optimization of Model Merging Recipes}, 
      author.       = {Takuya Akiba and Makoto Shing and Yujin Tang and Qi Sun and David Ha},
      year          = {2024},
      eprint        = {2403.13187},
      archivePrefix = {arXiv},
      primaryClass  = {cs.NE}
}