浅木（浅葱、朝凪等，不确定Asagi对应何汉字） - 4Bオープンソース日本语ビジュアル言语モデル - 多元データに基づき、日本语アプリケーションシーンに対して的确なサービスを提供

ホーム

Asagi 4B

MIL-UTによって開発

Asagi-4Bは大規模な日本語視覚言語モデル（VLM）で、広範な日本語データセットに基づいて訓練され、多様なデータソースを統合しています。

画像生成テキスト

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語視覚言語理解 #マルチモーダル合成データトレーニング #高精度画像記述

ダウンロード数 29

リリース時間 : 1/27/2025

モデル概要

このモデルは日本語視覚言語モデルで、画像に関連する日本語テキストを理解し生成することができ、画像理解と生成タスクに適しています。

モデル特徴

日本語視覚言語モデル

日本語に特化して最適化された視覚言語モデルで、画像に関連する日本語テキストを理解し生成できます。

多様な訓練データ

合成データや翻訳データを含む複数のデータソースを統合し、幅広い日本語アプリケーションシーンをカバーしています。

高性能

複数の評価ベンチマークで優れた性能を示し、特に日本語視覚言語タスクにおいて顕著です。

モデル能力

画像理解

日本語テキスト生成

視覚質問応答

画像記述生成

使用事例

視覚質問応答

画像内容質問応答

画像の撮影場所や内容説明など、画像内容に関する詳細な質問に答えます。

詳細かつ具体的な回答を生成し、画像内容を正確に記述できます。

画像記述生成

画像内容記述

シーン、物体、背景などを含む画像の詳細な記述を生成します。

生成される自然言語記述は正確で詳細であり、画像内容に合致しています。

🚀 Asagi-4B

このリポジトリは、大規模な日本語の画像と言語を扱うモデル（VLM）であるAsagi-4Bを提供しています。Asagi-4Bは、多様なデータソースを含む広範な日本語データセットで学習されています。

🚀 クイックスタート

このセクションでは、Asagi-4Bモデルの基本的な使い方を説明します。

必要条件

transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0

使い方

import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig

transformers.set_seed(42)
model_path = "MIL-UT/Asagi-4B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
    model_path, trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

generation_config = GenerationConfig(
    do_sample=True,
    num_beams=5,
    max_new_tokens=256,
    temperature=0.7,
    repetition_penalty=1.5
)

prompt = ("以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\n\n"
            "### 指示:\n<image>\nこの画像を見て、次の質問に詳細かつ具体的に答えてください。この写真はどこで撮影されたものか教えてください。また、画像の内容についても詳しく説明してください。\n\n### 応答:\n")

# sample image
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)

inputs = processor(
    text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
    if v.dtype == torch.float32:
        inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}

generate_ids = model.generate(
    **inputs,
    generation_config=generation_config
)
generated_text = processor.batch_decode(
    generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

# do not print the prompt
if "<image>" in prompt:
    prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")

print(f"Generated text: {generated_text}")

# >>> Generated text:  この写真は東京の渋谷で撮影されたものです。夜の渋谷の街並みが写っており、高層ビルが立ち並び、街灯やネオンサインが輝いています。

例

プロンプト	出力
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真はどこで撮影されたものか教えてください。また、画像の内容についても詳しく説明してください。	この写真は東京の渋谷で撮影されたものです。夜の渋谷の街並みが写っており、高層ビルが立ち並び、街灯やネオンサインが輝いています。

その他の例

クリックして展開

プロンプト	出力
この画像を見て、次の指示に詳細かつ具体的に答えてください。この写真の内容について詳しく教えてください。	この写真は、東京のレインボーブリッジを撮影したものです。橋は白く塗られており、静かな水の上に優雅にアーチを描いています。背景には高層ビルが立ち並ぶ都市景観が広がっており、空は澄み切った青色で、白い雲が点在しています。

プロンプト	出力
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真について評価してください。	この写真は、東京タワーを背景にした秋の風景を撮影したものです。東京タワーは赤と白のストライプ模様が特徴的で、周囲には紅葉した木々が広がっています。空は部分的に曇っており、太陽の光が雲の間から差し込んで美しいコントラストを作り出しています。前景には街灯や建物のシルエットが見え、都会的な雰囲気も感じられます。

プロンプト

出力

この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真について評価してください。

この写真は、東京タワーを背景にした秋の風景を撮影したものです。東京タワーは赤と白のストライプ模様が特徴的で、周囲には紅葉した木々が広がっています。空は部分的に曇っており、太陽の光が雲の間から差し込んで美しいコントラストを作り出しています。前景には街灯や建物のシルエットが見え、都会的な雰囲気も感じられます。

プロンプト	出力
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真の神社について、細かいところまで詳しく説明してください。	この写真に写っている神社は、日本の伝統的な建築様式を反映しています。白い壁と鮮やかなオレンジ色の屋根が特徴的で、神聖な雰囲気を醸し出しています。神社の入り口には朱色の鳥居が立っており、これは神道における神聖な空間への入り口を示す象徴的な門です。鳥居の前には小さな社殿があり、参拝者が祈りを捧げる場所として機能しています。社殿の横には縄が張られており、これは神聖な場所であることを示唆しています。神社は現代的な建物の間に位置しており、伝統と現代が共存する日本の文化を象徴しています。

プロンプト

出力

この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真の神社について、細かいところまで詳しく説明してください。

この写真に写っている神社は、日本の伝統的な建築様式を反映しています。白い壁と鮮やかなオレンジ色の屋根が特徴的で、神聖な雰囲気を醸し出しています。神社の入り口には朱色の鳥居が立っており、これは神道における神聖な空間への入り口を示す象徴的な門です。鳥居の前には小さな社殿があり、参拝者が祈りを捧げる場所として機能しています。社殿の横には縄が張られており、これは神聖な場所であることを示唆しています。神社は現代的な建物の間に位置しており、伝統と現代が共存する日本の文化を象徴しています。

プロンプト	出力
この画像を見て、次の指示に詳細かつ具体的に答えてください。これは日本庭園の中でも、どのような形式に分類される庭園ですか？また、その理由は何ですか？	これは日本庭園の中でも「石庭」と呼ばれる形式の庭園です。石庭は、自然の石を巧みに配置し、静けさと美しさを追求する形式で、日本の伝統的な庭園設計の一つです。

プロンプト	出力
この画像を見て、次の質問に詳細に答えてください。この画像の場所を舞台とした小説のあらすじを書いてください。	昔々、ある小さな村に、石造りの階段が村の中心へと続いていました。その階段は、村人たちにとって神聖な場所への入り口であり、村人たちはその階段を登り、神聖な場所で祈りを捧げました。階段の周りには、緑豊かな植物が生い茂り、自然との調和を感じさせる風景が広がっていました。村人たちは、階段を登るたびに、自然の恵みと神聖な場所への敬意を表していました。

プロンプト

出力

この画像を見て、次の質問に詳細に答えてください。この画像の場所を舞台とした小説のあらすじを書いてください。

昔々、ある小さな村に、石造りの階段が村の中心へと続いていました。その階段は、村人たちにとって神聖な場所への入り口であり、村人たちはその階段を登り、神聖な場所で祈りを捧げました。階段の周りには、緑豊かな植物が生い茂り、自然との調和を感じさせる風景が広がっていました。村人たちは、階段を登るたびに、自然の恵みと神聖な場所への敬意を表していました。

✨ 主な機能

このモデルは、画像とテキストを入力として受け取り、適切なテキスト出力を生成することができます。具体的には、画像の内容に関する質問に回答したり、画像を元に小説のあらすじを生成したりすることができます。

📚 ドキュメント

モデルの詳細

モデルの説明

学習データの大部分は、日本語の大規模言語モデル（CALM3-22B-Chat）や英語の画像と言語を扱うモデル（Phi3.5-vision-instruct）などのモデルを使用して合成されています。

重要なことは、ライセンス条項で出力の使用を制限しているLLM（例えば、GPT - 4）を学習データの合成に使用していないことです。

モデルの構成要素	モデル / アーキテクチャ	パラメータ数
ビジョンエンコーダ	[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)	428M
プロジェクター	2層MLP	64M
LLM	[llm - jp - 3 - 3.7b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 3.7b - instruct)	3.7B

学習の詳細

学習データ

データセット	前処理	ステージ1	ステージ2	サイズ
ROIS (Ours)	合成	✓	✓	8.4M
日本語の画像テキストペア	合成	✓	✓	4.4M
Wikipedia	合成	✓	✓	2.5M
Open Images	翻訳	✓	✓	680K
DCI	翻訳	✓	✓	7K
CommonCatalog CC - BY	翻訳	✓	✓	3.5M
LLaVA - Pretrain - JA		✓	✓	550K
STAIR Captions		✓	✓	410K
Flickr - JP		✓	✓	160K
YJ Captions		✓	✓	130K
日本語Pascal		✓	✓	5K
ArtBench	合成		✓	100K
GQA	翻訳		✓	1.9M
VQA v2	翻訳		✓	880K
A - OKVQA	翻訳		✓	34K
OK - VQA	翻訳		✓	18K
日本語Visual Genome	翻訳		✓	1.6M
PangeaInstruct			✓	93K

注: ROIS (Ours) は、このプロジェクトのためにウェブから新たに収集されたデータセットです。このデータセットは、画像と生テキストのペアから構成されており、学習データの合成に使用されます。

評価

このモデルは、Heron - Bench、JA - VLM - Bench - in - the - Wild、およびJA - VG - VQA - 500を使用して評価されました。評価にはeval - mmライブラリを使用しました。

ここで、"†" が付いたモデルは、GPT生成データを使用して学習されていません。太字の数字は、すべてのモデルの中で最良の性能を示し、下線付きの数字は、GPT生成データを使用せずに学習されたモデルの中で最良の性能を示します。

モデル	LMサイズ	Heron - Bench (LLM (%))	JA - VLM - Bench - In - the - Wild (ROUGE - L)	JA - VLM - Bench - In - the - Wild (LLM (/5.0))	JA - VG - VQA - 500 (ROUGE - L)	JA - VG - VQA - 500 (LLM (/5.0))
Japanese InstructBLIP Alpha†	7B	14.0	20.8	2.42	-	-
Japanese Stable VLM†	7B	24.2	23.3	2.47	-	-
LLaVA - CALM2 - SigLIP†	7B	43.3	47.2	3.15	17.4	3.21
Llama - 3 - EvoVLM - JP - v2	8B	39.3	41.4	2.92	23.5	2.96
VILA - jp	13B	57.2	52.3	3.69	16.2	3.62
Asagi - 2B†	1.8B	44.7	48.8	3.26	53.7	3.69
Asagi - 4B†	3.7B	49.3	49.6	3.38	55.6	3.78
Asagi - 8B†	7.2B	54.7	49.4	3.45	56.43	3.84
Asagi - 14B†	13B	55.8	50.8	3.44	56.8	3.84
GPT - 4o	-	87.6	37.6	3.85	12.1	3.58