P

Paligemma2 28b Pt 896

Developed by google
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を統合し、画像とテキスト入力を処理してテキスト出力を生成します。
Downloads 116
Release Time : 11/22/2024

Model Overview

オープンコンポーネントを基盤とした多機能視覚言語モデルで、画像キャプション生成、視覚質問応答、テキスト読み取り、物体検出、セグメンテーションなど様々な視覚言語タスクをサポートします。

Model Features

マルチモーダル処理能力
画像とテキスト入力を同時に処理し、一貫性のあるテキスト出力を生成
高解像度サポート
896×896ピクセルの高解像度画像入力をサポートし、詳細認識能力を向上
マルチタスク適応性
ファインチューニングにより画像キャプション生成、視覚質問応答など様々な視覚言語タスクに適応可能
責任あるAI設計
訓練データは厳密にフィルタリングされ、バイアスや有害コンテンツを低減

Model Capabilities

画像キャプション生成
視覚質問応答
テキスト読み取り
物体検出
画像セグメンテーション
多言語処理

Use Cases

コンテンツ理解と生成
自動画像キャプション
画像の詳細な説明テキストを生成
COCO-35Lデータセットで英語キャプションスコア142.4を達成
視覚質問応答システム
画像内容に関する自然言語質問に回答
VQAv2データセットで85.8点を獲得
ドキュメント処理
ドキュメント視覚質問応答
スキャン文書から情報を抽出し質問に回答
DocVQAデータセットで76.1点を達成
表理解
表画像を解析し構造化データを抽出
FinTabNetデータセットでTEDSスコア98.94を獲得
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase