P

Paligemma 3b Ft Refcoco Seg 896

googleによって開発
PaliGemmaはGoogleが開発した軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基盤としており、多言語テキスト生成と視覚理解タスクをサポートします。
ダウンロード数 20
リリース時間 : 5/12/2024

モデル概要

多機能視覚言語モデルで、画像とテキスト入力を受け取りテキスト出力を生成し、画像キャプション、視覚的質問応答、物体検出、セグメンテーションなどのタスクをサポートします。

モデル特徴

軽量設計
わずか30億パラメータ規模で、様々なハードウェアでの展開・実行に適しています
マルチタスクサポート
タスクプレフィックス設定により、質問応答、キャプション生成、セグメンテーションなど様々な視覚言語タスクをサポート
多言語能力
複数言語のテキスト生成と理解をサポート
高解像度処理
最大896×896ピクセルの入力画像解像度をサポート

モデル能力

画像キャプション生成
視覚的質問応答
物体検出
画像セグメンテーション
多言語テキスト生成
テキスト読解

使用事例

コンピュータビジョン
画像キャプション生成
入力画像に対して多言語の説明文を生成
COCOキャプションバリデーションセットでCIDErスコア144.60
視覚的質問応答
画像内容に関する自然言語質問に回答
VQAv2テストセットで精度85.64
ドキュメント処理
ドキュメント質問応答
ドキュメント画像の内容を理解し質問に回答
DocVQAテストセットでANLSスコア84.77
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase