P

Paligemma 3b Ft Widgetcap 224

googleによって開発
PaliGemmaは、画像とテキストの入力を組み合わせてテキスト出力を生成する、多機能な軽量ビジュアル言語モデルです。多言語をサポートし、さまざまなビジュアル言語タスクで優れた性能を発揮します。
ダウンロード数 135
リリース時間 : 5/13/2024

モデル概要

PaliGemmaは、オープンコンポーネントを基に構築されたビジュアル言語モデルで、画像キャプション、ビジュアル質問応答、テキスト読み取り、物体検出とセグメンテーションなど、さまざまなタスクを処理することができます。

モデル特徴

多機能性
画像や短い動画のキャプション、ビジュアル質問応答、テキスト読み取り、物体検出と物体セグメンテーションなど、さまざまなビジュアル言語タスクを処理することができます。
軽量性
オープンコンポーネントを基に構築されており、効率的な性能を備えています。
多言語対応
複数の言語の入力と出力をサポートしています。

モデル能力

画像キャプション生成
ビジュアル質問応答
テキスト読み取り
物体検出
物体セグメンテーション

使用事例

画像理解
画像キャプション生成
画像に対して記述的なキャプションを生成し、複数の言語をサポートします。
高品質の多言語画像記述
ビジュアル質問応答
画像の内容に関する自然言語の質問に回答します。
正確な質問回答
物体検出とセグメンテーション
物体検出
画像内の物体を検出し、バウンディングボックスの座標を返します。
正確な物体位置特定
物体セグメンテーション
画像内の物体をピクセルレベルでセグメント化します。
細かい物体セグメンテーション
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase