🚀 Sapnous-6B: 世界認識を強化するビジョン言語モデル
Sapnous-6Bは、高度なマルチモーダル機能を通じて、世界の認識と理解を強化するために設計された最先端のビジョン言語モデルです。このモデルは、以前のビジョン言語アーキテクチャの成功を踏まえ、性能と効率に新たな改良を加えています。

🚀 クイックスタート
Sapnous-6Bを使用するには、以下のコードを参考にしてください。
from transformers import pipeline
import requests
from PIL import Image
from io import BytesIO
def process_image_from_url(image_url, text_prompt):
"""Processes an image from a URL using a Transformers pipeline."""
try:
response = requests.get(image_url, stream=True)
response.raise_for_status()
image = Image.open(BytesIO(response.content))
inputs = {"image": image, "text": text_prompt}
pipe = pipeline("image-text-to-text", model="Sapnous-AI/Sapnous-VR-6B", trust_remote_code=True)
result = pipe(inputs)
return result
except requests.exceptions.RequestException as e:
print(f"Error fetching image: {e}")
return None
except Exception as e:
print(f"An error occurred: {e}")
return None
image_url = "example.com"
text_prompt = "What is in this image?"
result = process_image_from_url(image_url, text_prompt)
if result:
print(result)
✨ 主な機能
- マルチモーダルな理解と生成
- 高度なビジョンエンコーダによる強化された視覚認識
- 長いシーケンスの効率的な処理
- 様々なビジョン言語タスクでの堅牢な性能
📚 ドキュメント
モデルアーキテクチャ
属性 |
詳情 |
モデルタイプ |
ビジョン言語モデル |
ベースアーキテクチャ |
6Bパラメータ |
隠れ層のサイズ |
4096 |
アテンションヘッド |
32 |
キー/バリューヘッド |
8 |
隠れ層の数 |
28 |
ウィンドウサイズ |
32768 |
ビジョンエンコーダの深さ |
32層 |
ビジョンエンコーダの隠れ層のサイズ |
1280 |
ビジョンエンコーダのアテンションヘッド |
16 |
パッチサイズ |
14x14 |
ビジョンエンコーダのウィンドウサイズ |
112 |
スコア
マルチモーダルベンチマーク
ベンチマーク |
InternVL2.5-8B |
MiniCPM-o 2.6 |
GPT-4o-mini |
Qwen2-VL-7B |
Qwen2.5-VL-7B |
Sapnous-MoE (更新版) |
Sapnous-6B |
MMMU_val |
56 |
50.4 |
60 |
54.1 |
58.6 |
64.4 |
60.2 |
MMMU-Pro_val |
34.3 |
- |
37.6 |
30.5 |
41.0 |
44.9 |
40.7 |
DocVQA_test |
93 |
93 |
- |
94.5 |
95.7 |
97.8 |
95.6 |
InfoVQA_test |
77.6 |
- |
- |
76.5 |
82.6 |
88.7 |
81.9 |
ChartQA_test |
84.8 |
- |
- |
83.0 |
87.3 |
94.2 |
87.2 |
TextVQA_val |
79.1 |
80.1 |
- |
84.3 |
84.9 |
91.2 |
84.6 |
OCRBench |
822 |
852 |
785 |
845 |
864 |
929.0 |
861 |
CC_OCR |
57.7 |
- |
- |
61.6 |
77.8 |
83.7 |
77.3 |
MMStar |
62.8 |
- |
- |
60.7 |
63.9 |
69.3 |
63.6 |
MMBench-V1.1-En_test |
79.4 |
78.0 |
76.0 |
80.7 |
82.6 |
89.6 |
82.4 |
MMT-Bench_test |
- |
- |
- |
63.7 |
63.6 |
69.0 |
63.3 |
MMStar |
61.5 |
57.5 |
54.8 |
60.7 |
63.9 |
69.2 |
63.6 |
MMVet_GPT-4-Turbo |
54.2 |
60.0 |
66.9 |
62.0 |
67.1 |
73.3 |
67.2 |
HallBench_avg |
45.2 |
48.1 |
46.1 |
50.6 |
52.9 |
58.0 |
52.5 |
MathVista_testmini |
58.3 |
60.6 |
52.4 |
58.2 |
68.2 |
74.0 |
67.9 |
MathVision |
- |
- |
- |
16.3 |
25.07 |
27.7 |
24.8 |
推論と視覚理解ベンチマーク
ベンチマーク |
ショット数 |
指標 |
Llama 3.2 11B |
Llama 3.2 90B |
Sapnous-MoE (更新版) |
Sapnous-6B |
VQAv2 (val) |
0 |
正解率 |
66.8 |
73.6 |
80.3 |
74.1 |
Text VQA (val) |
0 |
緩和正解率 |
73.1 |
73.5 |
81.1 |
74.7 |
DocVQA (val, unseen) |
0 |
ANLS |
62.3 |
70.7 |
77.2 |
71.0 |
MMMU (val, 0-shot) |
0 |
マイクロ平均正解率 |
41.7 |
49.3 |
55.4 |
49.2 |
ChartQA (test) |
0 |
正解率 |
39.4 |
54.2 |
61.0 |
54.1 |
InfographicsQA (val, unseen) |
0 |
ANLS |
43.2 |
56.8 |
63.7 |
57.1 |
AI2 Diagram (test) |
0 |
正解率 |
62.4 |
75.3 |
82.3 |
75.6 |
MMMU (val, CoT) |
0 |
マイクロ平均正解率 |
50.7 |
60.3 |
66.5 |
60.6 |
MMMU-Pro, Standard (10 opts, test) |
0 |
正解率 |
33.0 |
45.2 |
50.0 |
45.5 |
MMMU-Pro, Vision (test) |
0 |
正解率 |
23.7 |
33.8 |
39.6 |
33.9 |
MathVista (testmini) |
0 |
正解率 |
51.5 |
57.3 |
63.0 |
57.5 |
ChartQA (test, CoT) |
0 |
緩和正解率 |
83.4 |
85.5 |
93.3 |
86.0 |
AI2 Diagram (test) |
0 |
正解率 |
91.1 |
92.3 |
100.9 |
93.5 |
DocVQA (test) |
0 |
ANLS |
88.4 |
90.1 |
98.9 |
91.3 |
VQAv2 (test) |
0 |
正解率 |
75.2 |
78.1 |
86.0 |
79.0 |
MMLU (CoT) |
0 |
マクロ平均/正解率 |
73.0 |
86.0 |
94.3 |
87.0 |
MATH (CoT) |
0 |
最終正解率 |
51.9 |
68.0 |
75.2 |
68.5 |
GPQA |
0 |
正解率 |
32.8 |
46.7 |
52.2 |
46.7 |
MGSM (CoT) |
0 |
正解率 |
68.9 |
86.9 |
95.0 |
87.4 |
モデルのロードとメモリ管理
このモデルは、効率的なロードとメモリ管理のために5つのsafetensorsファイルに分散されています。各ファイルには、model.safetensors.index.jsonに記載されている特定のレイヤーと重みが含まれています。
🔧 技術詳細
モデルは、効率的なロードとメモリ管理のために5つのsafetensorsファイルに分散されています。各ファイルには、model.safetensors.index.jsonに記載されている特定のレイヤーと重みが含まれています。
📄 ライセンス
使用条件と配布については、LICENSEファイルを参照してください。
引用
@misc{sapnous-6b,
title = {Sapnous-6B},
author = {Sapnous AI Team},
year = {2025}
}
@article{Sapnous6B,
title={Sapnous-6B: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
author={Sapnous AI Team},
year={2025}
}
@article{Sapnous-VR,
title={Sapnous-VR: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
author={Sapnous AI Team},
year={2025}
}