P

Paligemma Vqav2

merveによって開発
このモデルは、google/paligemma-3b-pt-224をVQAv2データセットの一部でファインチューニングしたバージョンで、視覚的質問応答タスクに特化しています。
ダウンロード数 168
リリース時間 : 5/23/2024

モデル概要

これは視覚言語モデルで、画像に基づく質問に答えるために特別に設計されています。画像理解と自然言語処理能力を組み合わせ、画像の内容に基づいて正確なテキスト回答を生成できます。

モデル特徴

視覚的質問応答能力
画像の内容を理解し関連する質問に答えることが可能
マルチモーダル理解
視覚情報とテキスト情報を同時に処理
少数ショットファインチューニング
VQAv2データセットのサブセットで最適化

モデル能力

画像理解
視覚的質問応答
マルチモーダル推論

使用事例

教育
学習支援
教材の画像内容を学生が理解するのを支援
画像関連の質問に正確に回答
コンテンツ分析
画像内容記述
画像内容を分析し関連質問に回答
正確な画像内容の記述と説明を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase