モデル概要
モデル特徴
モデル能力
使用事例
🚀 Asagi-4B
このリポジトリは、大規模な日本語の画像と言語を扱うモデル(VLM)であるAsagi-4Bを提供しています。Asagi-4Bは、多様なデータソースを含む広範な日本語データセットで学習されています。
🚀 クイックスタート
このセクションでは、Asagi-4Bモデルの基本的な使い方を説明します。
必要条件
transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0
使い方
import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig
transformers.set_seed(42)
model_path = "MIL-UT/Asagi-4B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
model_path, trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
generation_config = GenerationConfig(
do_sample=True,
num_beams=5,
max_new_tokens=256,
temperature=0.7,
repetition_penalty=1.5
)
prompt = ("以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\n\n"
"### 指示:\n<image>\nこの画像を見て、次の質問に詳細かつ具体的に答えてください。この写真はどこで撮影されたものか教えてください。また、画像の内容についても詳しく説明してください。\n\n### 応答:\n")
# sample image
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)
inputs = processor(
text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
if v.dtype == torch.float32:
inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}
generate_ids = model.generate(
**inputs,
generation_config=generation_config
)
generated_text = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
# do not print the prompt
if "<image>" in prompt:
prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")
print(f"Generated text: {generated_text}")
# >>> Generated text: この写真は東京の渋谷で撮影されたものです。夜の渋谷の街並みが写っており、高層ビルが立ち並び、街灯やネオンサインが輝いています。
例

プロンプト | 出力 |
---|---|
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真はどこで撮影されたものか教えてください。また、画像の内容についても詳しく説明してください。 | この写真は東京の渋谷で撮影されたものです。夜の渋谷の街並みが写っており、高層ビルが立ち並び、街灯やネオンサインが輝いています。 |
その他の例
クリックして展開

プロンプト | 出力 |
---|---|
この画像を見て、次の指示に詳細かつ具体的に答えてください。この写真の内容について詳しく教えてください。 | この写真は、東京のレインボーブリッジを撮影したものです。橋は白く塗られており、静かな水の上に優雅にアーチを描いています。背景には高層ビルが立ち並ぶ都市景観が広がっており、空は澄み切った青色で、白い雲が点在しています。 |

プロンプト | 出力 |
---|---|
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真について評価してください。 | この写真は、東京タワーを背景にした秋の風景を撮影したものです。東京タワーは赤と白のストライプ模様が特徴的で、周囲には紅葉した木々が広がっています。空は部分的に曇っており、太陽の光が雲の間から差し込んで美しいコントラストを作り出しています。前景には街灯や建物のシルエットが見え、都会的な雰囲気も感じられます。 |

プロンプト | 出力 |
---|---|
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真の神社について、細かいところまで詳しく説明してください。 | この写真に写っている神社は、日本の伝統的な建築様式を反映しています。白い壁と鮮やかなオレンジ色の屋根が特徴的で、神聖な雰囲気を醸し出しています。神社の入り口には朱色の鳥居が立っており、これは神道における神聖な空間への入り口を示す象徴的な門です。鳥居の前には小さな社殿があり、参拝者が祈りを捧げる場所として機能しています。社殿の横には縄が張られており、これは神聖な場所であることを示唆しています。神社は現代的な建物の間に位置しており、伝統と現代が共存する日本の文化を象徴しています。 |

プロンプト | 出力 |
---|---|
この画像を見て、次の指示に詳細かつ具体的に答えてください。これは日本庭園の中でも、どのような形式に分類される庭園ですか?また、その理由は何ですか? | これは日本庭園の中でも「石庭」と呼ばれる形式の庭園です。石庭は、自然の石を巧みに配置し、静けさと美しさを追求する形式で、日本の伝統的な庭園設計の一つです。 |

プロンプト | 出力 |
---|---|
この画像を見て、次の質問に詳細に答えてください。この画像の場所を舞台とした小説のあらすじを書いてください。 | 昔々、ある小さな村に、石造りの階段が村の中心へと続いていました。その階段は、村人たちにとって神聖な場所への入り口であり、村人たちはその階段を登り、神聖な場所で祈りを捧げました。階段の周りには、緑豊かな植物が生い茂り、自然との調和を感じさせる風景が広がっていました。村人たちは、階段を登るたびに、自然の恵みと神聖な場所への敬意を表していました。 |
✨ 主な機能
このモデルは、画像とテキストを入力として受け取り、適切なテキスト出力を生成することができます。具体的には、画像の内容に関する質問に回答したり、画像を元に小説のあらすじを生成したりすることができます。
📚 ドキュメント
モデルの詳細
モデルの説明
このリポジトリは、大規模な日本語の画像と言語を扱うモデル(VLM)であるAsagi-4Bを提供しています。Asagi-4Bは、多様なデータソースを含む広範な日本語データセットで学習されています。
学習データの大部分は、日本語の大規模言語モデル(CALM3-22B-Chat)や英語の画像と言語を扱うモデル(Phi3.5-vision-instruct)などのモデルを使用して合成されています。
重要なことは、ライセンス条項で出力の使用を制限しているLLM(例えば、GPT - 4)を学習データの合成に使用していないことです。
モデルの構成要素 | モデル / アーキテクチャ | パラメータ数 |
---|---|---|
ビジョンエンコーダ | [siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384) | 428M |
プロジェクター | 2層MLP | 64M |
LLM | [llm - jp - 3 - 3.7b - instruct](https://huggingface.co/llm - jp/llm - jp - 3 - 3.7b - instruct) | 3.7B |
学習の詳細
学習データ
データセット | 前処理 | ステージ1 | ステージ2 | サイズ |
---|---|---|---|---|
ROIS (Ours) | 合成 | ✓ | ✓ | 8.4M |
日本語の画像テキストペア | 合成 | ✓ | ✓ | 4.4M |
Wikipedia | 合成 | ✓ | ✓ | 2.5M |
Open Images | 翻訳 | ✓ | ✓ | 680K |
DCI | 翻訳 | ✓ | ✓ | 7K |
CommonCatalog CC - BY | 翻訳 | ✓ | ✓ | 3.5M |
LLaVA - Pretrain - JA | ✓ | ✓ | 550K | |
STAIR Captions | ✓ | ✓ | 410K | |
Flickr - JP | ✓ | ✓ | 160K | |
YJ Captions | ✓ | ✓ | 130K | |
日本語Pascal | ✓ | ✓ | 5K | |
ArtBench | 合成 | ✓ | 100K | |
GQA | 翻訳 | ✓ | 1.9M | |
VQA v2 | 翻訳 | ✓ | 880K | |
A - OKVQA | 翻訳 | ✓ | 34K | |
OK - VQA | 翻訳 | ✓ | 18K | |
日本語Visual Genome | 翻訳 | ✓ | 1.6M | |
PangeaInstruct | ✓ | 93K |
注: ROIS (Ours) は、このプロジェクトのためにウェブから新たに収集されたデータセットです。このデータセットは、画像と生テキストのペアから構成されており、学習データの合成に使用されます。
評価
このモデルは、Heron - Bench、JA - VLM - Bench - in - the - Wild、およびJA - VG - VQA - 500を使用して評価されました。評価にはeval - mmライブラリを使用しました。
ここで、"†" が付いたモデルは、GPT生成データを使用して学習されていません。太字の数字は、すべてのモデルの中で最良の性能を示し、下線付きの数字は、GPT生成データを使用せずに学習されたモデルの中で最良の性能を示します。
モデル | LMサイズ | Heron - Bench (LLM (%)) | JA - VLM - Bench - In - the - Wild (ROUGE - L) | JA - VLM - Bench - In - the - Wild (LLM (/5.0)) | JA - VG - VQA - 500 (ROUGE - L) | JA - VG - VQA - 500 (LLM (/5.0)) |
---|---|---|---|---|---|---|
Japanese InstructBLIP Alpha† | 7B | 14.0 | 20.8 | 2.42 | - | - |
Japanese Stable VLM† | 7B | 24.2 | 23.3 | 2.47 | - | - |
LLaVA - CALM2 - SigLIP† | 7B | 43.3 | 47.2 | 3.15 | 17.4 | 3.21 |
Llama - 3 - EvoVLM - JP - v2 | 8B | 39.3 | 41.4 | 2.92 | 23.5 | 2.96 |
VILA - jp | 13B | 57.2 | 52.3 | 3.69 | 16.2 | 3.62 |
Asagi - 2B† | 1.8B | 44.7 | 48.8 | 3.26 | 53.7 | 3.69 |
Asagi - 4B† | 3.7B | 49.3 | 49.6 | 3.38 | 55.6 | 3.78 |
Asagi - 8B† | 7.2B | 54.7 | 49.4 | 3.45 | 56.43 | 3.84 |
Asagi - 14B† | 13B | 55.8 | 50.8 | 3.44 | 56.8 | 3.84 |
GPT - 4o | - | 87.6 | 37.6 | 3.85 | 12.1 | 3.58 |
🔧 技術詳細
このモデルは、transformersライブラリを使用して構築されています。ビジョンエンコーダ、プロジェクター、LLMの3つの主要な構成要素から構成されています。学習には、多様なデータセットが使用されており、それぞれのデータセットには異なる前処理が施されています。
📄 ライセンス
このモデルは、Apache - 2.0ライセンスの下で提供されています。
⚠️ 重要提示
ここで公開されているモデルは、研究開発の初期段階にあり、出力が人間の意図や安全性の考慮に沿うように調整されていません。
モデルカードの作成者
Kohei Uehara








