🚀 Sapnous-6B:用於增強世界感知的視覺語言模型
Sapnous-6B 是一款先進的視覺語言模型,旨在通過強大的多模態能力,提升對世界的感知和理解。該模型在以往視覺語言架構的基礎上取得成功,同時在性能和效率方面引入了全新的改進。

✨ 主要特性
- 具備多模態理解和生成能力。
- 通過先進的視覺編碼器增強視覺感知。
- 能夠高效處理長序列。
- 在各種視覺語言任務中表現出色。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
from transformers import pipeline
import requests
from PIL import Image
from io import BytesIO
def process_image_from_url(image_url, text_prompt):
"""Processes an image from a URL using a Transformers pipeline."""
try:
response = requests.get(image_url, stream=True)
response.raise_for_status()
image = Image.open(BytesIO(response.content))
inputs = {"image": image, "text": text_prompt}
pipe = pipeline("image-text-to-text", model="Sapnous-AI/Sapnous-VR-6B", trust_remote_code=True)
result = pipe(inputs)
return result
except requests.exceptions.RequestException as e:
print(f"Error fetching image: {e}")
return None
except Exception as e:
print(f"An error occurred: {e}")
return None
image_url = "example.com"
text_prompt = "What is in this image?"
result = process_image_from_url(image_url, text_prompt)
if result:
print(result)
高級用法
文檔未提及高級用法代碼示例,故跳過該部分。
📚 詳細文檔
模型架構
屬性 |
詳情 |
基礎架構 |
60 億參數 |
隱藏層大小 |
4096 |
注意力頭數量 |
32 |
鍵/值頭數量 |
8 |
隱藏層數量 |
28 |
窗口大小 |
32768 |
視覺編碼器深度 |
32 層 |
視覺編碼器隱藏層大小 |
1280 |
視覺編碼器注意力頭數量 |
16 |
視覺編碼器塊大小 |
14x14 |
視覺編碼器窗口大小 |
112 |
評分
多模態基準測試
基準測試 |
InternVL2.5 - 8B |
MiniCPM - o 2.6 |
GPT - 4o - mini |
Qwen2 - VL - 7B |
Qwen2.5 - VL - 7B |
Sapnous - MoE (更新版) |
Sapnous - 6B |
MMMU_val |
56 |
50.4 |
60 |
54.1 |
58.6 |
64.4 |
60.2 |
MMMU - Pro_val |
34.3 |
- |
37.6 |
30.5 |
41.0 |
44.9 |
40.7 |
DocVQA_test |
93 |
93 |
- |
94.5 |
95.7 |
97.8 |
95.6 |
InfoVQA_test |
77.6 |
- |
- |
76.5 |
82.6 |
88.7 |
81.9 |
ChartQA_test |
84.8 |
- |
- |
83.0 |
87.3 |
94.2 |
87.2 |
TextVQA_val |
79.1 |
80.1 |
- |
84.3 |
84.9 |
91.2 |
84.6 |
OCRBench |
822 |
852 |
785 |
845 |
864 |
929.0 |
861 |
CC_OCR |
57.7 |
- |
- |
61.6 |
77.8 |
83.7 |
77.3 |
MMStar |
62.8 |
- |
- |
60.7 |
63.9 |
69.3 |
63.6 |
MMBench - V1.1 - En_test |
79.4 |
78.0 |
76.0 |
80.7 |
82.6 |
89.6 |
82.4 |
MMT - Bench_test |
- |
- |
- |
63.7 |
63.6 |
69.0 |
63.3 |
MMStar |
61.5 |
57.5 |
54.8 |
60.7 |
63.9 |
69.2 |
63.6 |
MMVet_GPT - 4 - Turbo |
54.2 |
60.0 |
66.9 |
62.0 |
67.1 |
73.3 |
67.2 |
HallBench_avg |
45.2 |
48.1 |
46.1 |
50.6 |
52.9 |
58.0 |
52.5 |
MathVista_testmini |
58.3 |
60.6 |
52.4 |
58.2 |
68.2 |
74.0 |
67.9 |
MathVision |
- |
- |
- |
16.3 |
25.07 |
27.7 |
24.8 |
推理與視覺理解基準測試
基準測試 |
樣本數量 |
指標 |
Llama 3.2 11B |
Llama 3.2 90B |
Sapnous - MoE (更新版) |
Sapnous - 6B |
VQAv2 (val) |
0 |
準確率 |
66.8 |
73.6 |
80.3 |
74.1 |
Text VQA (val) |
0 |
寬鬆準確率 |
73.1 |
73.5 |
81.1 |
74.7 |
DocVQA (val, unseen) |
0 |
ANLS |
62.3 |
70.7 |
77.2 |
71.0 |
MMMU (val, 0 - shot) |
0 |
微觀平均準確率 |
41.7 |
49.3 |
55.4 |
49.2 |
ChartQA (test) |
0 |
準確率 |
39.4 |
54.2 |
61.0 |
54.1 |
InfographicsQA (val, unseen) |
0 |
ANLS |
43.2 |
56.8 |
63.7 |
57.1 |
AI2 Diagram (test) |
0 |
準確率 |
62.4 |
75.3 |
82.3 |
75.6 |
MMMU (val, CoT) |
0 |
微觀平均準確率 |
50.7 |
60.3 |
66.5 |
60.6 |
MMMU - Pro, Standard (10 opts, test) |
0 |
準確率 |
33.0 |
45.2 |
50.0 |
45.5 |
MMMU - Pro, Vision (test) |
0 |
準確率 |
23.7 |
33.8 |
39.6 |
33.9 |
MathVista (testmini) |
0 |
準確率 |
51.5 |
57.3 |
63.0 |
57.5 |
ChartQA (test, CoT) |
0 |
寬鬆準確率 |
83.4 |
85.5 |
93.3 |
86.0 |
AI2 Diagram (test) |
0 |
準確率 |
91.1 |
92.3 |
100.9 |
93.5 |
DocVQA (test) |
0 |
ANLS |
88.4 |
90.1 |
98.9 |
91.3 |
VQAv2 (test) |
0 |
準確率 |
75.2 |
78.1 |
86.0 |
79.0 |
MMLU (CoT) |
0 |
宏觀平均/準確率 |
73.0 |
86.0 |
94.3 |
87.0 |
MATH (CoT) |
0 |
最終精確匹配率 |
51.9 |
68.0 |
75.2 |
68.5 |
GPQA |
0 |
準確率 |
32.8 |
46.7 |
52.2 |
46.7 |
MGSM (CoT) |
0 |
精確匹配率 |
68.9 |
86.9 |
95.0 |
87.4 |
模型文件分佈
該模型分佈在 5 個 safetensors 文件中,以實現高效加載和內存管理。每個文件包含的特定層和權重信息記錄在 model.safetensors.index.json
中。
🔧 技術細節
文檔未提及技術實現細節,故跳過該章節。
📄 許可證
請參考 LICENSE
文件獲取使用和分發條款。
📖 引用
@misc{sapnous-6b,
title = {Sapnous-6B},
author = {Sapnous AI Team},
year = {2025}
}
@article{Sapnous6B,
title={Sapnous-6B: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
author={Sapnous AI Team},
year={2025}
}
@article{Sapnous-VR,
title={Sapnous-VR: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
author={Sapnous AI Team},
year={2025}
}