P

Paligemma 3b Ft Vqav2 224

googleによって開発
PaliGemmaは、画像とテキストの入力を組み合わせてテキスト出力を生成する、多機能な軽量ビジュアル言語モデルで、多言語をサポートしています。
ダウンロード数 150
リリース時間 : 5/12/2024

モデル概要

PaliGemmaは、ビジュアル言語タスクのファインチューニング性能を目的として設計されており、画像や短い動画の字幕生成、ビジュアル質問応答、テキスト読み取り、物体検出、物体セグメンテーションなど、さまざまなシーンで使用できます。

モデル特徴

多機能性
画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語をサポートします。
軽量性
オープンコンポーネントを基に構築されており、使用とデプロイが容易です。
高性能
質問応答、字幕生成、セグメンテーションなど、さまざまなビジュアル言語タスクで優れた性能を発揮します。

モデル能力

画像字幕生成
ビジュアル質問応答
物体検出
物体セグメンテーション
多言語対応

使用事例

画像処理
画像字幕生成
画像に対して記述的な字幕を生成し、多言語をサポートします。
COCO captions検証セットでCIDEr得点が141.92(224解像度)
物体検出
画像内の物体を検出し、バウンディングボックスの座標を生成します。
質問応答システム
ビジュアル質問応答
画像の内容に関する質問に答えます。
VQAv2テストセットで精度が83.19%(224解像度)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase