S

Sarashina2 Vision 8b

sbintuitionsによって開発
Sarashina2-Vision-8BはSB Intuitionsによってトレーニングされた日本の大規模視覚言語モデルで、Sarashina2-7BとQwen2-VL-7Bの画像エンコーダーを基にしており、複数のベンチマークテストで優れたパフォーマンスを発揮しています。
ダウンロード数 1,233
リリース時間 : 3/9/2025

モデル概要

このモデルはマルチモーダルな視覚言語モデルで、画像に関連するテキスト記述を理解し生成することができ、日本語と英語の環境に適しています。

モデル特徴

マルチモーダルサポート
視覚と言語処理能力を組み合わせ、画像に関連するテキスト記述を理解し生成することができます。
高性能
複数のベンチマークテストで最高スコアを取得し、同類のモデルよりも優れたパフォーマンスを発揮します。
日本語最適化
特に日本語環境向けに最適化されており、日本語の視覚言語タスクに適しています。

モデル能力

画像理解
テキスト生成
マルチモーダル推論
視覚質問応答

使用事例

視覚質問応答
有名な建築物の識別
画像中の有名な建築物を識別し、その位置を説明します。
東京タワーなどの有名な建築物を画像中で正確に識別し説明することができます。
画像記述
画像内容の記述
画像の詳細なテキスト記述を生成します。
正確かつ詳細な画像記述を生成することができます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase