🚀 Spec-Vision-V1
Spec-Vision-V1は、画像と自然言語を組み合わせて理解・処理する、視覚とテキストデータの深い統合を目的としたマルチモーダルモデルです。合成データや公開データソースを含む多様なデータセットで学習されており、高品質で推論に富んだデータを重視しています。
🚀 クイックスタート
✨ 主な機能
- 🖼️ マルチモーダル処理:画像とテキスト入力をシームレスに組み合わせます。
- ⚡ トランスフォーマーベースのアーキテクチャ:視覚と言語の理解に高い効率を発揮します。
- 📝 VQAとキャプショニングに最適化:視覚的な質問に回答し、説明を生成する能力に優れています。
- 📥 事前学習済みモデル:推論とファインチューニングに利用できます。
📦 インストール
Spec-Vision-V1を使用するには、必要な依存関係をインストールします。
pip install transformers torch torchvision pillow
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image
import torch
model_name = "Spec-Vision-V1"
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
image = Image.open("example.jpg")
text = "Describe the image in detail."
inputs = processor(images=image, text=text, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
print(outputs)
📚 ドキュメント
📊 モデル仕様
属性 |
詳細 |
モデル名 |
Spec-Vision-V1 |
アーキテクチャ |
トランスフォーマーベースの視覚言語モデル |
事前学習済み |
✅ はい |
データセット |
多様な画像とそれに関連するキャプション、説明、コンテキスト情報を含むデータセットで学習 |
フレームワーク |
PyTorch & Hugging Face Transformers |
🎯 アプリケーション
タスク |
説明 |
🖼️ 画像キャプショニング |
入力画像に対する詳細な説明を生成します。 |
🧐 視覚的質問応答 |
画像に関する質問に回答します。 |
🔎 画像-テキストマッチング |
画像と与えられたテキストの関連性を判断します。 |
🌍 シーン理解 |
複雑な視覚データから洞察を抽出します。 |
BLINKベンチマーク
人間が非常に迅速に解くことができるが、現在のマルチモーダルLLMにとっては依然として難しい14の視覚タスクを含むベンチマークです。
ベンチマーク |
Spec-Vision-V1 |
LlaVA-Interleave-Qwen-7B |
InternVL-2-4B |
InternVL-2-8B |
Gemini-1.5-Flash |
GPT-4o-mini |
Claude-3.5-Sonnet |
Gemini-1.5-Pro |
GPT-4o |
アートスタイル |
87.2 |
62.4 |
55.6 |
52.1 |
64.1 |
70.1 |
59.8 |
70.9 |
73.3 |
カウント |
54.2 |
56.7 |
54.2 |
66.7 |
51.7 |
55.0 |
59.2 |
65.0 |
65.0 |
法医学的検出 |
92.4 |
31.1 |
40.9 |
34.1 |
54.5 |
38.6 |
67.4 |
60.6 |
75.8 |
機能的対応 |
29.2 |
34.6 |
24.6 |
24.6 |
33.1 |
26.9 |
33.8 |
31.5 |
43.8 |
IQテスト |
25.3 |
26.7 |
26.0 |
30.7 |
25.3 |
29.3 |
26.0 |
34.0 |
19.3 |
ジグソー |
68.0 |
86.0 |
55.3 |
52.7 |
71.3 |
72.7 |
57.3 |
68.0 |
67.3 |
マルチビュー推論 |
54.1 |
44.4 |
48.9 |
42.9 |
48.9 |
48.1 |
55.6 |
49.6 |
46.6 |
物体の位置特定 |
49.2 |
54.9 |
53.3 |
54.1 |
44.3 |
57.4 |
62.3 |
65.6 |
68.0 |
相対深度 |
69.4 |
77.4 |
63.7 |
67.7 |
57.3 |
58.1 |
71.8 |
76.6 |
71.0 |
相対反射率 |
37.3 |
34.3 |
32.8 |
38.8 |
32.8 |
27.6 |
36.6 |
38.8 |
40.3 |
意味的対応 |
36.7 |
31.7 |
31.7 |
22.3 |
32.4 |
31.7 |
45.3 |
48.9 |
54.0 |
空間関係 |
65.7 |
75.5 |
78.3 |
78.3 |
55.9 |
81.1 |
60.1 |
79.0 |
84.6 |
視覚的対応 |
53.5 |
40.7 |
34.9 |
33.1 |
29.7 |
52.9 |
72.1 |
81.4 |
86.0 |
視覚的類似性 |
83.0 |
91.9 |
48.1 |
45.2 |
47.4 |
77.8 |
84.4 |
81.5 |
88.1 |
全体 |
57.0 |
53.1 |
45.9 |
45.4 |
45.8 |
51.9 |
56.5 |
61.0 |
63.2 |
Video-MMEベンチマーク
マルチモーダルLLMのビデオデータ処理能力を包括的に評価するベンチマークで、幅広い視覚領域、時間的期間、データモダリティをカバーしています。
ベンチマーク |
Spec-Vision-V1 |
LlaVA-Interleave-Qwen-7B |
InternVL-2-4B |
InternVL-2-8B |
Gemini-1.5-Flash |
GPT-4o-mini |
Claude-3.5-Sonnet |
Gemini-1.5-Pro |
GPT-4o |
短い(<2分) |
60.8 |
62.3 |
60.7 |
61.7 |
72.2 |
70.1 |
66.3 |
73.3 |
77.7 |
中間(4 - 15分) |
47.7 |
47.1 |
46.4 |
49.6 |
62.7 |
59.6 |
54.7 |
61.2 |
68.0 |
長い(30 - 60分) |
43.8 |
41.2 |
42.6 |
46.6 |
52.1 |
53.9 |
46.6 |
53.2 |
59.6 |
全体 |
50.8 |
50.2 |
49.9 |
52.6 |
62.3 |
61.2 |
55.9 |
62.6 |
68.4 |
🏗️ モデル学習詳細
パラメータ |
値 |
バッチサイズ |
16 |
オプティマイザ |
AdamW |
学習率 |
5e-5 |
学習ステップ |
100k |
損失関数 |
CrossEntropyLoss |
フレームワーク |
PyTorch & Transformers |
📄 ライセンス
Spec-Vision-V1はMITライセンスの下で公開されています。
📖 引用
Spec-Vision-V1をあなたの研究やアプリケーションで使用する場合は、以下のように引用してください。
@article{SpecVision2025,
title={Spec-Vision-V1: A Vision-Language Transformer Model},
author={SVECTOR},
year={2025},
journal={SVECTOR Research}
}
📬 お問い合わせ
サポートや問い合わせについては、SVECTORまでご連絡ください。