S

Sapnous VR 6B

Sapnous-AIによって開発
Sapnous-6Bは先進的な視覚言語モデルで、強力なマルチモーダル能力により世界の知覚と理解を向上させます。
ダウンロード数 261
リリース時間 : 3/24/2025

モデル概要

このモデルは、従来の視覚言語アーキテクチャの成功を基に、性能と効率をさらに向上させ、強化された視覚知覚能力と長いシーケンスを効率的に処理する能力を備えています。

モデル特徴

強力なマルチモーダル能力
視覚と言語処理能力を組み合わせ、世界の総合的な知覚と理解を実現
効率的な長シーケンス処理
最大32768のウィンドウサイズをサポートし、長いテキストや複雑な視覚入力を処理可能
先進的な視覚エンコーダー
32層の深層視覚エンコーダー、112ウィンドウサイズ、14x14画像ブロック処理能力
高性能ベンチマーク
複数の視覚言語ベンチマークで優れた性能を発揮し、同類のモデルを凌駕

モデル能力

マルチモーダル理解と生成
画像内容分析
テキスト生成
ドキュメント理解
チャート解析
数学問題解答
視覚的質問応答

使用事例

ドキュメント処理
ドキュメントQA
スキャンしたドキュメントから情報を抽出し質問に回答
DocVQAテストセットで95.6%の精度を達成
視覚的質問応答
画像内容理解
画像内容に関する複雑な質問に回答
VQAv2検証セットで74.1%の精度を達成
教育
数学問題解答
チャートや数学問題を解析し解答を提供
MathVistaテストセットで57.5%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase