🚀 浅葱-8B
浅葱-8Bは、大規模な日本語の画像とテキストを扱う言語モデル(VLM)です。このモデルは、多様な日本語データセットを用いて学習され、画像とテキストの関連性を理解し、適切な応答を生成することができます。
🚀 クイックスタート
必要条件
transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0
使用方法
import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig
transformers.set_seed(42)
model_path = "MIL-UT/Asagi-8B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
model_path, trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
generation_config = GenerationConfig(
do_sample=True,
num_beams=5,
max_new_tokens=256,
temperature=0.7,
repetition_penalty=1.5
)
prompt = ("以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\n\n"
"### 指示:\n<image>\nこの画像を見て、次の質問に詳細かつ具体的に答えてください。この写真はどこで撮影されたものか教えてください。また、画像の内容についても詳しく説明してください。\n\n### 応答:\n")
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)
inputs = processor(
text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
if v.dtype == torch.float32:
inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}
generate_ids = model.generate(
**inputs,
generation_config=generation_config
)
generated_text = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
if "<image>" in prompt:
prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")
print(f"Generated text: {generated_text}")
✨ 主な機能
このリポジトリは、大規模な日本語の画像とテキストを扱う言語モデル(VLM)である浅葱-8Bを提供します。浅葱-8Bは、広範な日本語データセットを用いて学習され、多様なデータソースを組み込んでいます。
学習データの大部分は、日本語の大規模言語モデル(CALM3-22B-Chat)や英語の画像とテキストを扱う言語モデル(Phi3.5-vision-instruct)などのモデルを用いて合成されています。
重要なことは、ライセンス条項で出力の使用を制限しているLLM(例:GPT-4)を学習データの合成に使用していないことです。
📚 ドキュメント
モデル詳細
プロパティ |
詳細 |
モデルタイプ |
浅葱-8Bは、大規模な日本語の画像とテキストを扱う言語モデル(VLM)です。 |
学習データ |
学習データの大部分は、日本語の大規模言語モデルや英語の画像とテキストを扱う言語モデルを用いて合成されています。また、ウェブから収集した新しいデータセットや既存の公開データセットも使用しています。 |
使用例
基本的な使用法
上記の「クイックスタート」で示したコードが基本的な使用法の例です。
高度な使用法
現状で高度な使用法の具体的なコード例は提供されていません。
学習詳細
浅葱-8Bについては、ステージ1の学習をスキップしています。
データセット |
前処理 |
ステージ1 |
ステージ2 |
サイズ |
ROIS (Ours) |
合成 |
✓ |
✓ |
8.4M |
日本語の画像テキストペア |
合成 |
✓ |
✓ |
4.4M |
Wikipedia |
合成 |
✓ |
✓ |
2.5M |
Open Images |
翻訳 |
✓ |
✓ |
680K |
DCI |
翻訳 |
✓ |
✓ |
7K |
CommonCatalog CC - BY |
翻訳 |
✓ |
✓ |
3.5M |
LLaVA - Pretrain - JA |
|
✓ |
✓ |
550K |
STAIR Captions |
|
✓ |
✓ |
410K |
Flickr - JP |
|
✓ |
✓ |
160K |
YJ Captions |
|
✓ |
✓ |
130K |
日本語Pascal |
|
✓ |
✓ |
5K |
ArtBench |
合成 |
|
✓ |
100K |
GQA |
翻訳 |
|
✓ |
1.9M |
VQA v2 |
翻訳 |
|
✓ |
880K |
A - OKVQA |
翻訳 |
|
✓ |
34K |
OK - VQA |
翻訳 |
|
✓ |
18K |
日本語Visual Genome |
翻訳 |
|
✓ |
1.6M |
PangeaInstruct |
|
|
✓ |
93K |
評価
モデルの評価は、Heron - Bench、JA - VLM - Bench - in - the - Wild、JA - VG - VQA - 500を用いて行いました。評価にはeval - mmライブラリを使用しました。
ここで、「†」が付いているモデルは、GPT生成データを用いて学習されていません。太字の数字は、すべてのモデルの中で最良の性能を示し、下線付きの数字は、GPT生成データを用いて学習されていないモデルの中で最良の性能を示します。
モデル |
LMサイズ |
Heron - Bench (LLM (%)) |
JA - VLM - Bench - In - the - Wild (ROUGE - L) |
JA - VLM - Bench - In - the - Wild (LLM (/5.0)) |
JA - VG - VQA - 500 (ROUGE - L) |
JA - VG - VQA - 500 (LLM (/5.0)) |
日本語InstructBLIP Alpha† |
7B |
14.0 |
20.8 |
2.42 |
- |
- |
日本語Stable VLM† |
7B |
24.2 |
23.3 |
2.47 |
- |
- |
LLaVA - CALM2 - SigLIP† |
7B |
43.3 |
47.2 |
3.15 |
17.4 |
3.21 |
Llama - 3 - EvoVLM - JP - v2 |
8B |
39.3 |
41.4 |
2.92 |
23.5 |
2.96 |
VILA - jp |
13B |
57.2 |
52.3 |
3.69 |
16.2 |
3.62 |
浅葱 - 2B† |
1.8B |
44.7 |
48.8 |
3.26 |
53.7 |
3.69 |
浅葱 - 4B† |
3.7B |
49.3 |
49.6 |
3.38 |
55.6 |
3.78 |
浅葱 - 8B† |
7.2B |
54.7 |
49.4 |
3.45 |
56.43 |
3.84 |
浅葱 - 14B† |
13B |
55.8 |
50.8 |
3.44 |
56.8 |
3.84 |
GPT - 4o |
- |
87.6 |
37.6 |
3.85 |
12.1 |
3.58 |
🔧 技術詳細
現状で具体的な技術的な詳細説明は提供されていません。
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で公開されています。
⚠️ 重要提示
ここで公開されているモデルは、研究開発の初期段階にあり、出力が人間の意図や安全性の考慮に沿うように調整されていません。
モデルカード作成者
上原 康平