llava-llama-3-8b-v1_1-transformersオープンソースモデル - 無料でデプロイして画像テキストからテキストへのタスクを実現

ホーム

Llava Llama 3 8b V1 1 Transformers

xtunerによって開発

Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像テキストからテキストタスクをサポート

画像生成テキスト

Safetensors

#マルチモーダル対話 #高解像度画像理解 #LoRAファインチューニング

ダウンロード数 454.61k

リリース時間 : 4/26/2024

モデル概要

これはマルチモーダルモデルで、画像内容を理解し、関連するテキスト記述を生成したり、画像に関する質問に答えたりできます。

モデル特徴

マルチモーダル理解

視覚エンコーダーと言語モデルを組み合わせ、画像内容を理解し関連テキストを生成可能

高性能

複数のベンチマークテストでLLaVA-v1.5-7Bモデルを上回る性能

LoRAファインチューニング

LoRA技術を使用して視覚エンコーダーを微調整し、モデル性能を向上

モデル能力

画像内容理解

画像質問応答

マルチモーダル対話

視覚的推論

使用事例

視覚的質問応答

画像内容記述

画像内容を詳細に記述

画像中の物体、シーン、関係を正確に識別

視覚的推論

画像に関する推論問題に回答

MMBenchなどのベンチマークで優れた性能

教育

科学問題解答

画像に基づいて科学問題を解答

ScienceQAテストで72.9点を獲得

🚀 llava-llama-3-8b-v1_1-hfモデル

XTunerを用いて微調整された画像・テキストを入力とするモデルで、画像認識と自然言語処理のタスクに対応しています。

🚀 クイックスタート

パイプラインを使用したチャット

from transformers import pipeline
from PIL import Image    
import requests

model_id = "xtuner/llava-llama-3-8b-v1_1-transformers"
pipe = pipeline("image-to-text", model=model_id, device=0)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"

image = Image.open(requests.get(url, stream=True).raw)
prompt = ("<|start_header_id|>user<|end_header_id|>\n\n<image>\nWhat are these?<|eot_id|>"
          "<|start_header_id|>assistant<|end_header_id|>\n\n")
outputs = pipe(image, prompt=prompt, generate_kwargs={"max_new_tokens": 200})
print(outputs)
>>> [{'generated_text': 'user\n\n\nWhat are these?assistant\n\nThese are two cats, one brown and one gray, lying on a pink blanket. sleep. brown and gray cat sleeping on a pink blanket.'}]

純粋なtransformersを使用したチャット

import requests
from PIL import Image

import torch
from transformers import AutoProcessor, LlavaForConditionalGeneration

model_id = "xtuner/llava-llama-3-8b-v1_1-transformers"

prompt = ("<|start_header_id|>user<|end_header_id|>\n\n<image>\nWhat are these?<|eot_id|>"
          "<|start_header_id|>assistant<|end_header_id|>\n\n")
image_file = "http://images.cocodataset.org/val2017/000000039769.jpg"

model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True, 
).to(0)

processor = AutoProcessor.from_pretrained(model_id)

raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16)

output = model.generate(**inputs, max_new_tokens=200, do_sample=False)
print(processor.decode(output[0][2:], skip_special_tokens=True))
>>> These are two cats, one brown and one gray, lying on a pink blanket. sleep. brown and gray cat sleeping on a pink blanket.

再現方法

詳細はドキュメントを参照してください。

✨ 主な機能

llava-llama-3-8b-v1_1-hfは、meta-llama/Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をベースに、ShareGPT4V-PTとInternVL-SFTのデータセットを用いて、XTunerによって微調整されたLLaVAモデルです。

注意: このモデルはHuggingFaceのLLaVA形式です。

リソース:

GitHub: xtuner
公式LLaVA形式モデル: xtuner/llava-llama-3-8b-v1_1-hf
XTuner LLaVA形式モデル: xtuner/llava-llama-3-8b-v1_1
GGUF形式モデル: xtuner/llava-llama-3-8b-v1_1-gguf

📚 ドキュメント

詳細情報

モデル	ビジュアルエンコーダ	プロジェクター	解像度	事前学習戦略	微調整戦略	事前学習データセット	微調整データセット
LLaVA-v1.5-7B	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, Frozen ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, LoRA ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	Frozen LLM, Frozen ViT	Full LLM, LoRA ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)

結果

モデル	MMBench Test (EN)	MMBench Test (CN)	CCBench Dev	MMMU Val	SEED-IMG	AI2D Test	ScienceQA Test	HallusionBench aAcc	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	59.0	27.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	61.6	30.4	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	66.4	31.6	36.8	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1

📄 ライセンス

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}