Spec-Vision-V1オープンソースマルチモーダルモデル - 無料でデプロイ可能、視覚とテキストデータの深度融合

ホーム

Spec Vision V1

SVECTOR-CORPORATIONによって開発

Spec-Vision-V1は、軽量で最先端のオープンソースマルチモーダルモデルで、視覚とテキストデータの深い統合のために構築され、128Kの文脈長をサポートします。

テキスト生成画像

Transformers

その他オープンソースライセンス:MIT #128K長文脈 #マルチモーダル推論 #視覚的質問応答の最適化

ダウンロード数 17

リリース時間 : 2/11/2025

モデル概要

Spec-Vision-V1はTransformerアーキテクチャに基づく視覚言語モデルで、画像と自然言語の組み合わせを処理するのに優れており、視覚的質問応答と記述生成に最適化されています。

モデル特徴

マルチモーダル処理

画像とテキスト入力をシームレスに結合します。

Transformerベースのアーキテクチャ

視覚言語理解において効率的です。

視覚的質問応答と記述生成に最適化

視覚的な質問に答えたり、記述を生成するのに優れています。

事前学習済みモデル

推論や微調整に使用できます。

モデル能力

画像キャプション生成

視覚的質問応答

画像とテキストのマッチング

シーン理解

使用事例

画像分析

画像キャプション生成

入力画像に対して詳細な説明を生成します。

視覚的質問応答

画像に関する質問に答えます。

画像とテキストのマッチング

画像と与えられたテキストの関連性を判断します。

シーン理解

複雑な視覚データから洞察を抽出します。

🚀 Spec-Vision-V1

Spec-Vision-V1は、画像と自然言語を組み合わせて理解・処理する、視覚とテキストデータの深い統合を目的としたマルチモーダルモデルです。合成データや公開データソースを含む多様なデータセットで学習されており、高品質で推論に富んだデータを重視しています。

🚀 クイックスタート

✨ 主な機能

🖼️ マルチモーダル処理：画像とテキスト入力をシームレスに組み合わせます。
⚡ トランスフォーマーベースのアーキテクチャ：視覚と言語の理解に高い効率を発揮します。
📝 VQAとキャプショニングに最適化：視覚的な質問に回答し、説明を生成する能力に優れています。
📥 事前学習済みモデル：推論とファインチューニングに利用できます。

📦 インストール

Spec-Vision-V1を使用するには、必要な依存関係をインストールします。

pip install transformers torch torchvision pillow

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image
import torch

# Load the model and processor
model_name = "Spec-Vision-V1"
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)

# Load an example image
image = Image.open("example.jpg")

# Input text prompt
text = "Describe the image in detail."

# Process inputs
inputs = processor(images=image, text=text, return_tensors="pt")

# Generate output
with torch.no_grad():
    outputs = model(**inputs)

# Print the generated text
print(outputs)

📚 ドキュメント

📊 モデル仕様

属性	詳細
モデル名	Spec-Vision-V1
アーキテクチャ	トランスフォーマーベースの視覚言語モデル
事前学習済み	✅ はい
データセット	多様な画像とそれに関連するキャプション、説明、コンテキスト情報を含むデータセットで学習
フレームワーク	PyTorch & Hugging Face Transformers

🎯 アプリケーション

タスク	説明
🖼️ 画像キャプショニング	入力画像に対する詳細な説明を生成します。
🧐 視覚的質問応答	画像に関する質問に回答します。
🔎 画像-テキストマッチング	画像と与えられたテキストの関連性を判断します。
🌍 シーン理解	複雑な視覚データから洞察を抽出します。

BLINKベンチマーク

人間が非常に迅速に解くことができるが、現在のマルチモーダルLLMにとっては依然として難しい14の視覚タスクを含むベンチマークです。

ベンチマーク	Spec-Vision-V1	LlaVA-Interleave-Qwen-7B	InternVL-2-4B	InternVL-2-8B	Gemini-1.5-Flash	GPT-4o-mini	Claude-3.5-Sonnet	Gemini-1.5-Pro	GPT-4o
アートスタイル	87.2	62.4	55.6	52.1	64.1	70.1	59.8	70.9	73.3
カウント	54.2	56.7	54.2	66.7	51.7	55.0	59.2	65.0	65.0
法医学的検出	92.4	31.1	40.9	34.1	54.5	38.6	67.4	60.6	75.8
機能的対応	29.2	34.6	24.6	24.6	33.1	26.9	33.8	31.5	43.8
IQテスト	25.3	26.7	26.0	30.7	25.3	29.3	26.0	34.0	19.3
ジグソー	68.0	86.0	55.3	52.7	71.3	72.7	57.3	68.0	67.3
マルチビュー推論	54.1	44.4	48.9	42.9	48.9	48.1	55.6	49.6	46.6
物体の位置特定	49.2	54.9	53.3	54.1	44.3	57.4	62.3	65.6	68.0
相対深度	69.4	77.4	63.7	67.7	57.3	58.1	71.8	76.6	71.0
相対反射率	37.3	34.3	32.8	38.8	32.8	27.6	36.6	38.8	40.3
意味的対応	36.7	31.7	31.7	22.3	32.4	31.7	45.3	48.9	54.0
空間関係	65.7	75.5	78.3	78.3	55.9	81.1	60.1	79.0	84.6
視覚的対応	53.5	40.7	34.9	33.1	29.7	52.9	72.1	81.4	86.0
視覚的類似性	83.0	91.9	48.1	45.2	47.4	77.8	84.4	81.5	88.1
全体	57.0	53.1	45.9	45.4	45.8	51.9	56.5	61.0	63.2

Video-MMEベンチマーク

マルチモーダルLLMのビデオデータ処理能力を包括的に評価するベンチマークで、幅広い視覚領域、時間的期間、データモダリティをカバーしています。

ベンチマーク	Spec-Vision-V1	LlaVA-Interleave-Qwen-7B	InternVL-2-4B	InternVL-2-8B	Gemini-1.5-Flash	GPT-4o-mini	Claude-3.5-Sonnet	Gemini-1.5-Pro	GPT-4o
短い（<2分）	60.8	62.3	60.7	61.7	72.2	70.1	66.3	73.3	77.7
中間（4 - 15分）	47.7	47.1	46.4	49.6	62.7	59.6	54.7	61.2	68.0
長い（30 - 60分）	43.8	41.2	42.6	46.6	52.1	53.9	46.6	53.2	59.6
全体	50.8	50.2	49.9	52.6	62.3	61.2	55.9	62.6	68.4

🏗️ モデル学習詳細

パラメータ	値
バッチサイズ	16
オプティマイザ	AdamW
学習率	5e-5
学習ステップ	100k
損失関数	CrossEntropyLoss
フレームワーク	PyTorch & Transformers

📄 ライセンス

Spec-Vision-V1はMITライセンスの下で公開されています。

📖 引用

Spec-Vision-V1をあなたの研究やアプリケーションで使用する場合は、以下のように引用してください。

@article{SpecVision2025,
  title={Spec-Vision-V1: A Vision-Language Transformer Model},
  author={SVECTOR},
  year={2025},
  journal={SVECTOR Research}
}