llm-jp-3-vila-14bオープンソースのビジュアル言語モデル - 無料で画像理解と英語・日本語テキスト生成を実現

ホーム

Llm Jp 3 Vila 14b

llm-jpによって開発

国立情報学研究所によって開発された大規模視覚言語モデルで、日本語と英語をサポートし、強力な画像理解とテキスト生成能力を備えています。

画像生成テキスト

Safetensors

日本語#日本語視覚質問応答 #マルチモーダル大規模モデル #SigLIP視覚エンコーディング

ダウンロード数 106

リリース時間 : 10/26/2024

モデル概要

これは視覚エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像内容を理解し、関連するテキスト記述を生成したり質問に答えたりすることができます。

モデル特徴

多言語サポート

日本語と英語の視覚言語理解と生成を同時にサポート

3段階トレーニング

段階的なトレーニング戦略を採用し、まず投影層を調整し、次に投影層とLLMを共同でトレーニングし、最後に微調整を行います

高性能視覚エンコーダー

siglip-so400m-patch14-384を視覚エンコーダーとして使用し、強力な画像理解能力を提供します

評価リーダー

複数の日本語視覚言語ベンチマークテストで同類のモデルよりも優れたパフォーマンスを発揮します

モデル能力

画像内容理解

画像記述生成

視覚質問応答

マルチモーダル対話

使用事例

内容理解と生成

画像記述

画像に対して詳細な文章記述を生成します

Heronベンチマークテストで57.2%のLLMスコアを獲得

視覚質問応答

画像内容に関する自然言語の質問に答えます

JA-VG-VQA500テストで3.62/5.0のLLMスコアを獲得

マルチモーダルアプリケーション

画像テキスト対話

画像内容に基づいて自然言語対話を行います

JA-VLM野外ベンチマークテストで3.69/5.0のLLMスコアを獲得

🚀 LLM-jp-3 VILA 14B

このリポジトリは、国立情報学研究所の大規模言語モデル研究開発センターによって開発された大規模ビジョン言語モデル（VLM）を提供しています。

🚀 クイックスタート

環境設定

Pythonバージョン: 3.10.12

リポジトリをクローンし、ライブラリをインストールします。

git clone git@github.com:llm-jp/llm-jp-VILA.git
cd llm-jp-VILA

python3 -m venv venv
source venv/bin/activate

pip install --upgrade pip
wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.4.2/flash_attn-2.4.2+cu118torch2.0cxx11abiFALSE-cp310-cp310-linux_x86_64.whl
pip install flash_attn-2.4.2+cu118torch2.0cxx11abiFALSE-cp310-cp310-linux_x86_64.whl
pip install -e .
pip install -e ".[train]"

pip install git+https://github.com/huggingface/transformers@v4.36.2
cp -rv ./llava/train/transformers_replace/* ./venv/lib/python3.10/site-packages/transformers/

Pythonスクリプトを実行します。image_pathとqueryを自分のものに変更することができます。

import argparse
from io import BytesIO

import requests
import torch
from PIL import Image

from llava.constants import IMAGE_TOKEN_INDEX
from llava.conversation import conv_templates
from llava.mm_utils import (get_model_name_from_path,
                            process_images, tokenizer_image_token)
from llava.model.builder import load_pretrained_model
from llava.utils import disable_torch_init


def load_image(image_file):
    if image_file.startswith("http") or image_file.startswith("https"):
        response = requests.get(image_file)
        image = Image.open(BytesIO(response.content)).convert("RGB")
    else:
        image = Image.open(image_file).convert("RGB")
    return image


def load_images(image_files):
    out = []
    for image_file in image_files:
        image = load_image(image_file)
        out.append(image)
    return out


disable_torch_init()

model_checkpoint_path = "llm-jp/llm-jp-3-vila-14b"
model_name = get_model_name_from_path(model_checkpoint_path)
tokenizer, model, image_processor, context_len = load_pretrained_model(model_checkpoint_path, model_name)

image_path = "path/to/image"
image_files = [
    image_path
]
images = load_images(image_files)

query = "<image>\nこの画像について説明してください。"

conv_mode = "llmjp_v3"
conv = conv_templates[conv_mode].copy()
conv.append_message(conv.roles[0], query)
conv.append_message(conv.roles[1], None)
prompt = conv.get_prompt()

images_tensor = process_images(images, image_processor, model.config).to(model.device, dtype=torch.float16)
input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt").unsqueeze(0).cuda()

with torch.inference_mode():
    output_ids = model.generate(
        input_ids,
        images=[
            images_tensor,
        ],
        do_sample=False,
        num_beams=1,
        max_new_tokens=256,
        use_cache=True,
    )

outputs = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0]
print(outputs)

✨ 主な機能

このモデルは、画像とテキストを組み合わせたタスクを扱うことができます。具体的には、画像に関する質問に回答したり、画像の説明を生成したりすることが可能です。

📚 ドキュメント

モデル詳細

属性	詳情
ビジョンエンコーダ	siglip-so400m-patch14-384 (428M)
プロジェクター	2層MLP (32M)
大規模言語モデル (LLM)	llm-jp-3-13b-instruct (13B)

データセット

このモデルは3段階で学習されています。

ステップ0

プロジェクターのパラメータを調整するために、以下のデータセットを使用しました。

言語	データセット	画像数
日本語	Japanese image text pairs	558K
英語	LLaVA-Pretrain	558K

ステップ1

プロジェクターとLLMのパラメータを調整するために、以下のデータセットを使用しました。

言語	データセット	画像数
日本語	Japanese image text pairs	6M
日本語	Japanese interleaved data	6M
英語	coyo (サブセット)	6M
英語	mmc4-core (サブセット)	6M

ステップ2

プロジェクターとLLMのパラメータを調整するために、以下のデータセットを使用しました。

言語	データセット	画像数
日本語	llava-instruct-ja	156K
日本語	japanese-photos-conv	12K
日本語	ja-vg-vqa	99K
日本語	synthdog-ja (サブセット)	102K
英語	LLaVA	158K
英語	VQAv2	53K
英語	GQA	46K
英語	OCRVQA	80K
英語	TextVQA	22K

評価

このモデルは、Heron Bench、JA-VLM-Bench-In-the-Wild、およびJA-VG-VQA500を使用して評価されました。評価にはgpt-4o-2024-05-13をLLM評価者として使用しました。

Heron Bench

モデル	LLM評価者のスコア (%)
Japanese InstructBLIP Alpha	14.0
Japanese Stable VLM	24.2
Llama-3-EvoVLM-JP-v2	39.3
LLaVA-CALM2-SigLIP	43.3
llm-jp-3-vila-14b (当モデル)	57.2
GPT-4o	87.6

JA-VLM-Bench-In-the-Wild

モデル	ROUGE-L	LLM評価者のスコア (/5.0)
Japanese InstructBLIP Alpha	20.8	2.42
Japanese Stable VLM	23.3	2.47
Llama-3-EvoVLM-JP-v2	41.4	2.92
LLaVA-CALM2-SigLIP	47.2	3.15
llm-jp-3-vila-14b (当モデル)	52.3	3.69
GPT-4o	37.6	3.85

JA-VG-VQA-500

モデル	ROUGE-L	LLM評価者のスコア (/5.0)
Japanese InstructBLIP Alpha	--	--
Japanese Stable VLM	--	--
Llama-3-EvoVLM-JP-v2	23.5	2.96
LLaVA-CALM2-SigLIP	17.4	3.21
llm-jp-3-vila-14b (当モデル)	16.2	3.62
GPT-4o	12.1	3.58