🚀 Spec-Vision-V1
Spec-Vision-V1是一款輕量級的先進開源多模態模型,專注於文本和視覺領域的高質量、富含推理的數據。它支持128K上下文長度,經過嚴格優化,能精準遵循指令並具備強大的安全措施。
🚀 快速開始
Spec-Vision-V1專為視覺和文本數據的深度融合而構建,使其能夠結合自然語言理解和處理圖像。該模型在包含圖像及其相關標題、描述和上下文信息的多樣化數據集上進行了訓練。
✨ 主要特性
- 🖼️ 多模態處理:無縫結合圖像和文本輸入。
- ⚡ 基於Transformer架構:在視覺 - 語言理解方面具有高效率。
- 📝 針對視覺問答和圖像描述進行優化:擅長回答視覺問題和生成描述。
- 📥 預訓練模型:可用於推理和微調。
📦 安裝指南
要使用Spec-Vision-V1,請安裝所需的依賴項:
pip install transformers torch torchvision pillow
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image
import torch
model_name = "Spec-Vision-V1"
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
image = Image.open("example.jpg")
text = "Describe the image in detail."
inputs = processor(images=image, text=text, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
print(outputs)
📚 詳細文檔
📊 模型規格
屬性 |
詳情 |
模型名稱 |
Spec-Vision-V1 |
架構 |
基於Transformer的視覺 - 語言模型 |
預訓練 |
✅ 是 |
數據集 |
在多樣化的圖像 - 文本對上進行訓練 |
框架 |
PyTorch & Hugging Face Transformers |
🎯 應用場景
任務 |
描述 |
🖼️ 圖像描述 |
為輸入圖像生成詳細描述。 |
🧐 視覺問答 |
回答關於圖像的問題。 |
🔎 圖像 - 文本匹配 |
確定圖像與給定文本的相關性。 |
🌍 場景理解 |
從複雜的視覺數據中提取見解。 |
BLINK基準測試
這是一個包含14個視覺任務的基準測試,人類可以快速解決這些任務,但當前的多模態大語言模型仍然面臨挑戰。
基準測試 |
Spec-Vision-V1 |
LlaVA-Interleave-Qwen-7B |
InternVL-2-4B |
InternVL-2-8B |
Gemini-1.5-Flash |
GPT-4o-mini |
Claude-3.5-Sonnet |
Gemini-1.5-Pro |
GPT-4o |
藝術風格 |
87.2 |
62.4 |
55.6 |
52.1 |
64.1 |
70.1 |
59.8 |
70.9 |
73.3 |
計數 |
54.2 |
56.7 |
54.2 |
66.7 |
51.7 |
55.0 |
59.2 |
65.0 |
65.0 |
法醫檢測 |
92.4 |
31.1 |
40.9 |
34.1 |
54.5 |
38.6 |
67.4 |
60.6 |
75.8 |
功能對應 |
29.2 |
34.6 |
24.6 |
24.6 |
33.1 |
26.9 |
33.8 |
31.5 |
43.8 |
IQ測試 |
25.3 |
26.7 |
26.0 |
30.7 |
25.3 |
29.3 |
26.0 |
34.0 |
19.3 |
拼圖 |
68.0 |
86.0 |
55.3 |
52.7 |
71.3 |
72.7 |
57.3 |
68.0 |
67.3 |
多視圖推理 |
54.1 |
44.4 |
48.9 |
42.9 |
48.9 |
48.1 |
55.6 |
49.6 |
46.6 |
目標定位 |
49.2 |
54.9 |
53.3 |
54.1 |
44.3 |
57.4 |
62.3 |
65.6 |
68.0 |
相對深度 |
69.4 |
77.4 |
63.7 |
67.7 |
57.3 |
58.1 |
71.8 |
76.6 |
71.0 |
相對反射率 |
37.3 |
34.3 |
32.8 |
38.8 |
32.8 |
27.6 |
36.6 |
38.8 |
40.3 |
語義對應 |
36.7 |
31.7 |
31.7 |
22.3 |
32.4 |
31.7 |
45.3 |
48.9 |
54.0 |
空間關係 |
65.7 |
75.5 |
78.3 |
78.3 |
55.9 |
81.1 |
60.1 |
79.0 |
84.6 |
視覺對應 |
53.5 |
40.7 |
34.9 |
33.1 |
29.7 |
52.9 |
72.1 |
81.4 |
86.0 |
視覺相似度 |
83.0 |
91.9 |
48.1 |
45.2 |
47.4 |
77.8 |
84.4 |
81.5 |
88.1 |
總體 |
57.0 |
53.1 |
45.9 |
45.4 |
45.8 |
51.9 |
56.5 |
61.0 |
63.2 |
Video-MME基準測試
這是一個全面評估多模態大語言模型處理視頻數據能力的基準測試,涵蓋了廣泛的視覺領域、時間跨度和數據模態。
基準測試 |
Spec-Vision-V1 |
LlaVA-Interleave-Qwen-7B |
InternVL-2-4B |
InternVL-2-8B |
Gemini-1.5-Flash |
GPT-4o-mini |
Claude-3.5-Sonnet |
Gemini-1.5-Pro |
GPT-4o |
短視頻 (<2分鐘) |
60.8 |
62.3 |
60.7 |
61.7 |
72.2 |
70.1 |
66.3 |
73.3 |
77.7 |
中視頻 (4 - 15分鐘) |
47.7 |
47.1 |
46.4 |
49.6 |
62.7 |
59.6 |
54.7 |
61.2 |
68.0 |
長視頻 (30 - 60分鐘) |
43.8 |
41.2 |
42.6 |
46.6 |
52.1 |
53.9 |
46.6 |
53.2 |
59.6 |
總體 |
50.8 |
50.2 |
49.9 |
52.6 |
62.3 |
61.2 |
55.9 |
62.6 |
68.4 |
🏗️ 模型訓練細節
參數 |
值 |
批量大小 |
16 |
優化器 |
AdamW |
學習率 |
5e-5 |
訓練步數 |
100k |
損失函數 |
CrossEntropyLoss |
框架 |
PyTorch & Transformers |
📄 許可證
Spec-Vision-V1 採用 MIT 許可證發佈。
📖 引用
如果您在研究或應用中使用了 Spec-Vision-V1,請引用:
@article{SpecVision2025,
title={Spec-Vision-V1: A Vision-Language Transformer Model},
author={SVECTOR},
year={2025},
journal={SVECTOR Research}
}
📬 聯繫信息
如需支持或諮詢,請聯繫 SVECTOR: