Sapnous-VR-6B開源視覺語言模型 - 以多模態能力提升世界感知理解

首頁

Sapnous VR 6B

由Sapnous-AI開發

Sapnous-6B是一款先進的視覺語言模型，通過強大的多模態能力提升對世界的感知和理解。

圖像生成文本

Transformers

英語開源協議:Apache-2.0 #多模態理解 #高精度OCR #長序列處理

下載量 261

發布時間 : 3/24/2025

模型概述

該模型在先前視覺語言架構成功的基礎上，進一步提升了性能和效率，具備增強的視覺感知能力和高效處理長序列的能力。

模型特點

強大的多模態能力

結合視覺和語言處理能力，實現對世界的綜合感知和理解

高效處理長序列

支持高達32768的窗口大小，能夠處理長文本和複雜視覺輸入

先進的視覺編碼器

32層深度視覺編碼器，112窗口大小，14x14圖像塊處理能力

高性能基準測試

在多個視覺語言基準測試中表現優異，超越同類模型

模型能力

多模態理解和生成

圖像內容分析

文本生成

文檔理解

圖表解析

數學問題解答

視覺問答

使用案例

文檔處理

文檔問答

從掃描文檔中提取信息並回答問題

在DocVQA測試集上達到95.6%準確率

視覺問答

圖像內容理解

回答關於圖像內容的複雜問題

在VQAv2驗證集上達到74.1%準確率

教育

數學問題解答

解析圖表和數學問題並提供解答

在MathVista測試集上達到57.5%準確率

🚀 Sapnous-6B：用於增強世界感知的視覺語言模型

Sapnous-6B 是一款先進的視覺語言模型，旨在通過強大的多模態能力，提升對世界的感知和理解。該模型在以往視覺語言架構的基礎上取得成功，同時在性能和效率方面引入了全新的改進。

✨ 主要特性

具備多模態理解和生成能力。
通過先進的視覺編碼器增強視覺感知。
能夠高效處理長序列。
在各種視覺語言任務中表現出色。

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

from transformers import pipeline
import requests
from PIL import Image
from io import BytesIO

def process_image_from_url(image_url, text_prompt):
    """Processes an image from a URL using a Transformers pipeline."""
    try:
        # Fetch the image from the URL
        response = requests.get(image_url, stream=True)
        response.raise_for_status()  # Raise an exception for bad status codes (4xx or 5xx)

        # Open the image using PIL
        image = Image.open(BytesIO(response.content))

        # Create the input for the pipeline
        inputs = {"image": image, "text": text_prompt}

        # Initialize the pipeline
        pipe = pipeline("image-text-to-text", model="Sapnous-AI/Sapnous-VR-6B", trust_remote_code=True)

        # Process the image and text
        result = pipe(inputs)
        return result

    except requests.exceptions.RequestException as e:
        print(f"Error fetching image: {e}")
        return None
    except Exception as e:
        print(f"An error occurred: {e}")
        return None

# Example usage
image_url = "example.com" #replace with your image url.
text_prompt = "What is in this image?"

result = process_image_from_url(image_url, text_prompt)

if result:
    print(result)

高級用法

文檔未提及高級用法代碼示例，故跳過該部分。

📚 詳細文檔

模型架構

屬性	詳情
基礎架構	60 億參數
隱藏層大小	4096
注意力頭數量	32
鍵/值頭數量	8
隱藏層數量	28
窗口大小	32768
視覺編碼器深度	32 層
視覺編碼器隱藏層大小	1280
視覺編碼器注意力頭數量	16
視覺編碼器塊大小	14x14
視覺編碼器窗口大小	112

評分

多模態基準測試

基準測試	InternVL2.5 - 8B	MiniCPM - o 2.6	GPT - 4o - mini	Qwen2 - VL - 7B	Qwen2.5 - VL - 7B	Sapnous - MoE (更新版)	Sapnous - 6B
MMMU_val	56	50.4	60	54.1	58.6	64.4	60.2
MMMU - Pro_val	34.3	-	37.6	30.5	41.0	44.9	40.7
DocVQA_test	93	93	-	94.5	95.7	97.8	95.6
InfoVQA_test	77.6	-	-	76.5	82.6	88.7	81.9
ChartQA_test	84.8	-	-	83.0	87.3	94.2	87.2
TextVQA_val	79.1	80.1	-	84.3	84.9	91.2	84.6
OCRBench	822	852	785	845	864	929.0	861
CC_OCR	57.7	-	-	61.6	77.8	83.7	77.3
MMStar	62.8	-	-	60.7	63.9	69.3	63.6
MMBench - V1.1 - En_test	79.4	78.0	76.0	80.7	82.6	89.6	82.4
MMT - Bench_test	-	-	-	63.7	63.6	69.0	63.3
MMStar	61.5	57.5	54.8	60.7	63.9	69.2	63.6
MMVet_GPT - 4 - Turbo	54.2	60.0	66.9	62.0	67.1	73.3	67.2
HallBench_avg	45.2	48.1	46.1	50.6	52.9	58.0	52.5
MathVista_testmini	58.3	60.6	52.4	58.2	68.2	74.0	67.9
MathVision	-	-	-	16.3	25.07	27.7	24.8

推理與視覺理解基準測試

基準測試	指標	Llama 3.2 11B	Llama 3.2 90B	Sapnous - MoE (更新版)	Sapnous - 6B
VQAv2 (val)	準確率	66.8	73.6	80.3	74.1
Text VQA (val)	寬鬆準確率	73.1	73.5	81.1	74.7
DocVQA (val, unseen)	ANLS	62.3	70.7	77.2	71.0
MMMU (val, 0 - shot)	微觀平均準確率	41.7	49.3	55.4	49.2
ChartQA (test)	準確率	39.4	54.2	61.0	54.1
InfographicsQA (val, unseen)	ANLS	43.2	56.8	63.7	57.1
AI2 Diagram (test)	準確率	62.4	75.3	82.3	75.6
MMMU (val, CoT)	微觀平均準確率	50.7	60.3	66.5	60.6
MMMU - Pro, Standard (10 opts, test)	準確率	33.0	45.2	50.0	45.5
MMMU - Pro, Vision (test)	準確率	23.7	33.8	39.6	33.9
MathVista (testmini)	準確率	51.5	57.3	63.0	57.5
ChartQA (test, CoT)	寬鬆準確率	83.4	85.5	93.3	86.0
AI2 Diagram (test)	準確率	91.1	92.3	100.9	93.5
DocVQA (test)	ANLS	88.4	90.1	98.9	91.3
VQAv2 (test)	準確率	75.2	78.1	86.0	79.0
MMLU (CoT)	宏觀平均/準確率	73.0	86.0	94.3	87.0
MATH (CoT)	最終精確匹配率	51.9	68.0	75.2	68.5
GPQA	準確率	32.8	46.7	52.2	46.7
MGSM (CoT)	精確匹配率	68.9	86.9	95.0	87.4

模型文件分佈

該模型分佈在 5 個 safetensors 文件中，以實現高效加載和內存管理。每個文件包含的特定層和權重信息記錄在 model.safetensors.index.json 中。

🔧 技術細節

文檔未提及技術實現細節，故跳過該章節。

📄 許可證

請參考 LICENSE 文件獲取使用和分發條款。

📖 引用

@misc{sapnous-6b,
    title = {Sapnous-6B},
    author = {Sapnous AI Team},
    year = {2025}
}

@article{Sapnous6B,
    title={Sapnous-6B: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
    author={Sapnous AI Team},
    year={2025}
}

@article{Sapnous-VR,
    title={Sapnous-VR: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
    author={Sapnous AI Team},
    year={2025}
}