S

Sarashina2 Vision 14b

sbintuitionsによって開発
Sarashina2-Vision-14BはSB Intuitionsによって開発された日本の大規模視覚言語モデルで、Sarashina2-13BとQwen2-VL-7Bの画像エンコーダーを組み合わせており、複数のベンチマークテストで優れた性能を示しています。
ダウンロード数 192
リリース時間 : 3/9/2025

モデル概要

このモデルはマルチモーダルな視覚言語モデルで、画像に関連するテキストコンテンツを理解し生成することができ、画像分析や視覚質問応答などのタスクに適しています。

モデル特徴

高性能視覚言語モデル
複数のベンチマークテストで最高レベルのスコアを獲得し、同類のモデルを上回る性能を示しています。
マルチモーダル対応
画像とテキスト入力を同時に処理でき、視覚と言語を統合します。
多段階トレーニング
プロジェクター、視覚エンコーダー、大規模言語モデルの調整を含む3段階の学習プロセスを通じてモデル性能を最適化します。

モデル能力

画像分析
視覚質問応答
マルチモーダル理解
テキスト生成

使用事例

画像理解
有名な建築物の識別
写真中の有名な建築物を識別し、その位置を説明します。
東京タワーなどの有名な建築物を正確に識別し、その位置を説明できます。
物体識別
写真中の特定の物体を識別します。
クレーンなどの物体を正確に識別できます。
視覚質問応答
画像に関する質問に回答
画像内容に基づいてユーザーからの質問に回答します。
詳細かつ正確な回答を生成できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase