🚀 Spec-Vision-V1
Spec-Vision-V1是一款轻量级的先进开源多模态模型,专注于文本和视觉领域的高质量、富含推理的数据。它支持128K上下文长度,经过严格优化,能精准遵循指令并具备强大的安全措施。
🚀 快速开始
Spec-Vision-V1专为视觉和文本数据的深度融合而构建,使其能够结合自然语言理解和处理图像。该模型在包含图像及其相关标题、描述和上下文信息的多样化数据集上进行了训练。
✨ 主要特性
- 🖼️ 多模态处理:无缝结合图像和文本输入。
- ⚡ 基于Transformer架构:在视觉 - 语言理解方面具有高效率。
- 📝 针对视觉问答和图像描述进行优化:擅长回答视觉问题和生成描述。
- 📥 预训练模型:可用于推理和微调。
📦 安装指南
要使用Spec-Vision-V1,请安装所需的依赖项:
pip install transformers torch torchvision pillow
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image
import torch
model_name = "Spec-Vision-V1"
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
image = Image.open("example.jpg")
text = "Describe the image in detail."
inputs = processor(images=image, text=text, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
print(outputs)
📚 详细文档
📊 模型规格
属性 |
详情 |
模型名称 |
Spec-Vision-V1 |
架构 |
基于Transformer的视觉 - 语言模型 |
预训练 |
✅ 是 |
数据集 |
在多样化的图像 - 文本对上进行训练 |
框架 |
PyTorch & Hugging Face Transformers |
🎯 应用场景
任务 |
描述 |
🖼️ 图像描述 |
为输入图像生成详细描述。 |
🧐 视觉问答 |
回答关于图像的问题。 |
🔎 图像 - 文本匹配 |
确定图像与给定文本的相关性。 |
🌍 场景理解 |
从复杂的视觉数据中提取见解。 |
BLINK基准测试
这是一个包含14个视觉任务的基准测试,人类可以快速解决这些任务,但当前的多模态大语言模型仍然面临挑战。
基准测试 |
Spec-Vision-V1 |
LlaVA-Interleave-Qwen-7B |
InternVL-2-4B |
InternVL-2-8B |
Gemini-1.5-Flash |
GPT-4o-mini |
Claude-3.5-Sonnet |
Gemini-1.5-Pro |
GPT-4o |
艺术风格 |
87.2 |
62.4 |
55.6 |
52.1 |
64.1 |
70.1 |
59.8 |
70.9 |
73.3 |
计数 |
54.2 |
56.7 |
54.2 |
66.7 |
51.7 |
55.0 |
59.2 |
65.0 |
65.0 |
法医检测 |
92.4 |
31.1 |
40.9 |
34.1 |
54.5 |
38.6 |
67.4 |
60.6 |
75.8 |
功能对应 |
29.2 |
34.6 |
24.6 |
24.6 |
33.1 |
26.9 |
33.8 |
31.5 |
43.8 |
IQ测试 |
25.3 |
26.7 |
26.0 |
30.7 |
25.3 |
29.3 |
26.0 |
34.0 |
19.3 |
拼图 |
68.0 |
86.0 |
55.3 |
52.7 |
71.3 |
72.7 |
57.3 |
68.0 |
67.3 |
多视图推理 |
54.1 |
44.4 |
48.9 |
42.9 |
48.9 |
48.1 |
55.6 |
49.6 |
46.6 |
目标定位 |
49.2 |
54.9 |
53.3 |
54.1 |
44.3 |
57.4 |
62.3 |
65.6 |
68.0 |
相对深度 |
69.4 |
77.4 |
63.7 |
67.7 |
57.3 |
58.1 |
71.8 |
76.6 |
71.0 |
相对反射率 |
37.3 |
34.3 |
32.8 |
38.8 |
32.8 |
27.6 |
36.6 |
38.8 |
40.3 |
语义对应 |
36.7 |
31.7 |
31.7 |
22.3 |
32.4 |
31.7 |
45.3 |
48.9 |
54.0 |
空间关系 |
65.7 |
75.5 |
78.3 |
78.3 |
55.9 |
81.1 |
60.1 |
79.0 |
84.6 |
视觉对应 |
53.5 |
40.7 |
34.9 |
33.1 |
29.7 |
52.9 |
72.1 |
81.4 |
86.0 |
视觉相似度 |
83.0 |
91.9 |
48.1 |
45.2 |
47.4 |
77.8 |
84.4 |
81.5 |
88.1 |
总体 |
57.0 |
53.1 |
45.9 |
45.4 |
45.8 |
51.9 |
56.5 |
61.0 |
63.2 |
Video-MME基准测试
这是一个全面评估多模态大语言模型处理视频数据能力的基准测试,涵盖了广泛的视觉领域、时间跨度和数据模态。
基准测试 |
Spec-Vision-V1 |
LlaVA-Interleave-Qwen-7B |
InternVL-2-4B |
InternVL-2-8B |
Gemini-1.5-Flash |
GPT-4o-mini |
Claude-3.5-Sonnet |
Gemini-1.5-Pro |
GPT-4o |
短视频 (<2分钟) |
60.8 |
62.3 |
60.7 |
61.7 |
72.2 |
70.1 |
66.3 |
73.3 |
77.7 |
中视频 (4 - 15分钟) |
47.7 |
47.1 |
46.4 |
49.6 |
62.7 |
59.6 |
54.7 |
61.2 |
68.0 |
长视频 (30 - 60分钟) |
43.8 |
41.2 |
42.6 |
46.6 |
52.1 |
53.9 |
46.6 |
53.2 |
59.6 |
总体 |
50.8 |
50.2 |
49.9 |
52.6 |
62.3 |
61.2 |
55.9 |
62.6 |
68.4 |
🏗️ 模型训练细节
参数 |
值 |
批量大小 |
16 |
优化器 |
AdamW |
学习率 |
5e-5 |
训练步数 |
100k |
损失函数 |
CrossEntropyLoss |
框架 |
PyTorch & Transformers |
📄 许可证
Spec-Vision-V1 采用 MIT 许可证发布。
📖 引用
如果您在研究或应用中使用了 Spec-Vision-V1,请引用:
@article{SpecVision2025,
title={Spec-Vision-V1: A Vision-Language Transformer Model},
author={SVECTOR},
year={2025},
journal={SVECTOR Research}
}
📬 联系信息
如需支持或咨询,请联系 SVECTOR: