Sapnous-VR-6Bオープンソースビジュアル言語モデル - マルチモーダル能力で世界の知覚と理解を向上させる

ホーム

Sapnous VR 6B

Sapnous-AIによって開発

Sapnous-6Bは先進的な視覚言語モデルで、強力なマルチモーダル能力により世界の知覚と理解を向上させます。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル理解 #高精度OCR #長シーケンス処理

ダウンロード数 261

リリース時間 : 3/24/2025

モデル概要

このモデルは、従来の視覚言語アーキテクチャの成功を基に、性能と効率をさらに向上させ、強化された視覚知覚能力と長いシーケンスを効率的に処理する能力を備えています。

モデル特徴

強力なマルチモーダル能力

視覚と言語処理能力を組み合わせ、世界の総合的な知覚と理解を実現

効率的な長シーケンス処理

最大32768のウィンドウサイズをサポートし、長いテキストや複雑な視覚入力を処理可能

先進的な視覚エンコーダー

32層の深層視覚エンコーダー、112ウィンドウサイズ、14x14画像ブロック処理能力

高性能ベンチマーク

複数の視覚言語ベンチマークで優れた性能を発揮し、同類のモデルを凌駕

モデル能力

マルチモーダル理解と生成

画像内容分析

テキスト生成

ドキュメント理解

チャート解析

数学問題解答

視覚的質問応答

使用事例

ドキュメント処理

ドキュメントQA

スキャンしたドキュメントから情報を抽出し質問に回答

DocVQAテストセットで95.6%の精度を達成

視覚的質問応答

画像内容理解

画像内容に関する複雑な質問に回答

VQAv2検証セットで74.1%の精度を達成

教育

数学問題解答

チャートや数学問題を解析し解答を提供

MathVistaテストセットで57.5%の精度を達成

🚀 Sapnous-6B: 世界認識を強化するビジョン言語モデル

Sapnous-6Bは、高度なマルチモーダル機能を通じて、世界の認識と理解を強化するために設計された最先端のビジョン言語モデルです。このモデルは、以前のビジョン言語アーキテクチャの成功を踏まえ、性能と効率に新たな改良を加えています。

🚀 クイックスタート

Sapnous-6Bを使用するには、以下のコードを参考にしてください。

from transformers import pipeline
import requests
from PIL import Image
from io import BytesIO

def process_image_from_url(image_url, text_prompt):
    """Processes an image from a URL using a Transformers pipeline."""
    try:
        # Fetch the image from the URL
        response = requests.get(image_url, stream=True)
        response.raise_for_status()  # Raise an exception for bad status codes (4xx or 5xx)

        # Open the image using PIL
        image = Image.open(BytesIO(response.content))

        # Create the input for the pipeline
        inputs = {"image": image, "text": text_prompt}

        # Initialize the pipeline
        pipe = pipeline("image-text-to-text", model="Sapnous-AI/Sapnous-VR-6B", trust_remote_code=True)

        # Process the image and text
        result = pipe(inputs)
        return result

    except requests.exceptions.RequestException as e:
        print(f"Error fetching image: {e}")
        return None
    except Exception as e:
        print(f"An error occurred: {e}")
        return None

# Example usage
image_url = "example.com" #replace with your image url.
text_prompt = "What is in this image?"

result = process_image_from_url(image_url, text_prompt)

if result:
    print(result)

✨ 主な機能

マルチモーダルな理解と生成
高度なビジョンエンコーダによる強化された視覚認識
長いシーケンスの効率的な処理
様々なビジョン言語タスクでの堅牢な性能

📚 ドキュメント

モデルアーキテクチャ

属性	詳情
モデルタイプ	ビジョン言語モデル
ベースアーキテクチャ	6Bパラメータ
隠れ層のサイズ	4096
アテンションヘッド	32
キー/バリューヘッド	8
隠れ層の数	28
ウィンドウサイズ	32768
ビジョンエンコーダの深さ	32層
ビジョンエンコーダの隠れ層のサイズ	1280
ビジョンエンコーダのアテンションヘッド	16
パッチサイズ	14x14
ビジョンエンコーダのウィンドウサイズ	112

スコア

マルチモーダルベンチマーク

ベンチマーク	InternVL2.5-8B	MiniCPM-o 2.6	GPT-4o-mini	Qwen2-VL-7B	Qwen2.5-VL-7B	Sapnous-MoE (更新版)	Sapnous-6B
MMMU_val	56	50.4	60	54.1	58.6	64.4	60.2
MMMU-Pro_val	34.3	-	37.6	30.5	41.0	44.9	40.7
DocVQA_test	93	93	-	94.5	95.7	97.8	95.6
InfoVQA_test	77.6	-	-	76.5	82.6	88.7	81.9
ChartQA_test	84.8	-	-	83.0	87.3	94.2	87.2
TextVQA_val	79.1	80.1	-	84.3	84.9	91.2	84.6
OCRBench	822	852	785	845	864	929.0	861
CC_OCR	57.7	-	-	61.6	77.8	83.7	77.3
MMStar	62.8	-	-	60.7	63.9	69.3	63.6
MMBench-V1.1-En_test	79.4	78.0	76.0	80.7	82.6	89.6	82.4
MMT-Bench_test	-	-	-	63.7	63.6	69.0	63.3
MMStar	61.5	57.5	54.8	60.7	63.9	69.2	63.6
MMVet_GPT-4-Turbo	54.2	60.0	66.9	62.0	67.1	73.3	67.2
HallBench_avg	45.2	48.1	46.1	50.6	52.9	58.0	52.5
MathVista_testmini	58.3	60.6	52.4	58.2	68.2	74.0	67.9
MathVision	-	-	-	16.3	25.07	27.7	24.8

推論と視覚理解ベンチマーク

ベンチマーク	指標	Llama 3.2 11B	Llama 3.2 90B	Sapnous-MoE (更新版)	Sapnous-6B
VQAv2 (val)	正解率	66.8	73.6	80.3	74.1
Text VQA (val)	緩和正解率	73.1	73.5	81.1	74.7
DocVQA (val, unseen)	ANLS	62.3	70.7	77.2	71.0
MMMU (val, 0-shot)	マイクロ平均正解率	41.7	49.3	55.4	49.2
ChartQA (test)	正解率	39.4	54.2	61.0	54.1
InfographicsQA (val, unseen)	ANLS	43.2	56.8	63.7	57.1
AI2 Diagram (test)	正解率	62.4	75.3	82.3	75.6
MMMU (val, CoT)	マイクロ平均正解率	50.7	60.3	66.5	60.6
MMMU-Pro, Standard (10 opts, test)	正解率	33.0	45.2	50.0	45.5
MMMU-Pro, Vision (test)	正解率	23.7	33.8	39.6	33.9
MathVista (testmini)	正解率	51.5	57.3	63.0	57.5
ChartQA (test, CoT)	緩和正解率	83.4	85.5	93.3	86.0
AI2 Diagram (test)	正解率	91.1	92.3	100.9	93.5
DocVQA (test)	ANLS	88.4	90.1	98.9	91.3
VQAv2 (test)	正解率	75.2	78.1	86.0	79.0
MMLU (CoT)	マクロ平均/正解率	73.0	86.0	94.3	87.0
MATH (CoT)	最終正解率	51.9	68.0	75.2	68.5
GPQA	正解率	32.8	46.7	52.2	46.7
MGSM (CoT)	正解率	68.9	86.9	95.0	87.4

モデルのロードとメモリ管理

このモデルは、効率的なロードとメモリ管理のために5つのsafetensorsファイルに分散されています。各ファイルには、model.safetensors.index.jsonに記載されている特定のレイヤーと重みが含まれています。

🔧 技術詳細

モデルは、効率的なロードとメモリ管理のために5つのsafetensorsファイルに分散されています。各ファイルには、model.safetensors.index.jsonに記載されている特定のレイヤーと重みが含まれています。

📄 ライセンス

使用条件と配布については、LICENSEファイルを参照してください。

引用

@misc{sapnous-6b,
    title = {Sapnous-6B},
    author = {Sapnous AI Team},
    year = {2025}
}

@article{Sapnous6B,
    title={Sapnous-6B: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
    author={Sapnous AI Team},
    year={2025}
}

@article{Sapnous-VR,
    title={Sapnous-VR: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
    author={Sapnous AI Team},
    year={2025}
}