あさぎ-8Bオープンソース日本语ビジュアルと言语モデル - 広范なデータセットに基づき、多样なアプリケーションをサポート

ホーム

Asagi 8B

MIL-UTによって開発

Asagi-8Bは大規模な日本語視覚言語モデル（VLM）で、広範な日本語データセットに基づいて訓練され、多様なデータソースを統合しています。

画像生成テキスト

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語視覚言語モデル #マルチモーダル質問応答 #画像シーン理解

ダウンロード数 58

リリース時間 : 2/19/2025

モデル概要

Asagi-8Bは日本語視覚言語モデルで、画像からテキストへのタスクを処理でき、日本語環境でのマルチモーダルアプリケーションに適しています。

モデル特徴

マルチモーダル能力

視覚エンコーダと言語モデルを組み合わせ、画像に関連する日本語テキストを理解し生成できます。

日本語最適化

日本語データに特化して訓練されており、日本語環境での視覚言語タスクに適しています。

合成データトレーニング

合成データを使用して訓練されており、ライセンス制限のあるLLM生成データの使用を回避しています。

モデル能力

画像キャプション生成

視覚的質問応答

マルチモーダル推論

使用事例

視覚的質問応答

画像内容の説明

画像に基づいて詳細な日本語説明を生成します。

シーン、物体、活動を含む詳細な画像説明を生成します。

場所識別

画像の撮影場所を識別し、詳細な説明を提供します。

可能性のある場所の識別と詳細な環境説明を提供します。

クリエイティブライティング

ストーリー生成

画像に基づいてストーリー展開を生成します。

画像内容に関連したストーリー展開を生成します。

🚀 浅葱-8B

浅葱-8Bは、大規模な日本語の画像とテキストを扱う言語モデル（VLM）です。このモデルは、多様な日本語データセットを用いて学習され、画像とテキストの関連性を理解し、適切な応答を生成することができます。

🚀 クイックスタート

必要条件

transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0

使用方法

import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig

transformers.set_seed(42)
model_path = "MIL-UT/Asagi-8B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
    model_path, trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

generation_config = GenerationConfig(
    do_sample=True,
    num_beams=5,
    max_new_tokens=256,
    temperature=0.7,
    repetition_penalty=1.5
)

prompt = ("以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\n\n"
            "### 指示:\n<image>\nこの画像を見て、次の質問に詳細かつ具体的に答えてください。この写真はどこで撮影されたものか教えてください。また、画像の内容についても詳しく説明してください。\n\n### 応答:\n")

# sample image
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)

inputs = processor(
    text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
    if v.dtype == torch.float32:
        inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}

generate_ids = model.generate(
    **inputs,
    generation_config=generation_config
)
generated_text = processor.batch_decode(
    generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

# do not print the prompt
if "<image>" in prompt:
    prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")

print(f"Generated text: {generated_text}")

# >>> Generated text:  この写真は東京・銀座の夜景を撮影したものです。銀座は東京を代表する繁華街の一つで、多くの高層ビルが立ち並び、ネオンサインや街灯の光で輝いています。特に目を引くのは、中央にそびえ立つ「銀座クリスタルビル」で、その特徴的な時計塔が印象的です。ビル群の間を行き交う車や人々の姿は、都会の活気を感じさせます。

✨ 主な機能

このリポジトリは、大規模な日本語の画像とテキストを扱う言語モデル（VLM）である浅葱-8Bを提供します。浅葱-8Bは、広範な日本語データセットを用いて学習され、多様なデータソースを組み込んでいます。

学習データの大部分は、日本語の大規模言語モデル（CALM3-22B-Chat）や英語の画像とテキストを扱う言語モデル（Phi3.5-vision-instruct）などのモデルを用いて合成されています。

重要なことは、ライセンス条項で出力の使用を制限しているLLM（例：GPT-4）を学習データの合成に使用していないことです。

📚 ドキュメント

モデル詳細

プロパティ	詳細
モデルタイプ	浅葱-8Bは、大規模な日本語の画像とテキストを扱う言語モデル（VLM）です。
学習データ	学習データの大部分は、日本語の大規模言語モデルや英語の画像とテキストを扱う言語モデルを用いて合成されています。また、ウェブから収集した新しいデータセットや既存の公開データセットも使用しています。

モデルコンポーネント	モデル / アーキテクチャ	パラメータ数
ビジョンエンコーダ	siglip-so400m-patch14-384	428M
プロジェクター	2層MLP	43M
LLM	llm-jp-3-7.2b-instruct	7.2B

使用例

基本的な使用法

上記の「クイックスタート」で示したコードが基本的な使用法の例です。

高度な使用法

現状で高度な使用法の具体的なコード例は提供されていません。

学習詳細

浅葱-8Bについては、ステージ1の学習をスキップしています。

データセット	前処理	ステージ1	ステージ2	サイズ
ROIS (Ours)	合成	✓	✓	8.4M
日本語の画像テキストペア	合成	✓	✓	4.4M
Wikipedia	合成	✓	✓	2.5M
Open Images	翻訳	✓	✓	680K
DCI	翻訳	✓	✓	7K
CommonCatalog CC - BY	翻訳	✓	✓	3.5M
LLaVA - Pretrain - JA		✓	✓	550K
STAIR Captions		✓	✓	410K
Flickr - JP		✓	✓	160K
YJ Captions		✓	✓	130K
日本語Pascal		✓	✓	5K
ArtBench	合成		✓	100K
GQA	翻訳		✓	1.9M
VQA v2	翻訳		✓	880K
A - OKVQA	翻訳		✓	34K
OK - VQA	翻訳		✓	18K
日本語Visual Genome	翻訳		✓	1.6M
PangeaInstruct			✓	93K

評価

モデルの評価は、Heron - Bench、JA - VLM - Bench - in - the - Wild、JA - VG - VQA - 500を用いて行いました。評価にはeval - mmライブラリを使用しました。

ここで、「†」が付いているモデルは、GPT生成データを用いて学習されていません。太字の数字は、すべてのモデルの中で最良の性能を示し、下線付きの数字は、GPT生成データを用いて学習されていないモデルの中で最良の性能を示します。

モデル	LMサイズ	Heron - Bench (LLM (%))	JA - VLM - Bench - In - the - Wild (ROUGE - L)	JA - VLM - Bench - In - the - Wild (LLM (/5.0))	JA - VG - VQA - 500 (ROUGE - L)	JA - VG - VQA - 500 (LLM (/5.0))
日本語InstructBLIP Alpha†	7B	14.0	20.8	2.42	-	-
日本語Stable VLM†	7B	24.2	23.3	2.47	-	-
LLaVA - CALM2 - SigLIP†	7B	43.3	47.2	3.15	17.4	3.21
Llama - 3 - EvoVLM - JP - v2	8B	39.3	41.4	2.92	23.5	2.96
VILA - jp	13B	57.2	52.3	3.69	16.2	3.62
浅葱 - 2B†	1.8B	44.7	48.8	3.26	53.7	3.69
浅葱 - 4B†	3.7B	49.3	49.6	3.38	55.6	3.78
浅葱 - 8B†	7.2B	54.7	49.4	3.45	56.43	3.84
浅葱 - 14B†	13B	55.8	50.8	3.44	56.8	3.84
GPT - 4o	-	87.6	37.6	3.85	12.1	3.58