P

Paligemma 3b Ft Nlvr2 224

googleによって開発
PaliGemmaは、多言語の入出力をサポートする、画像キャプションや視覚的質問応答などのさまざまな視覚言語タスクに長けた、多機能の軽量級視覚言語モデル(VLM)です。
ダウンロード数 2,056
リリース時間 : 5/13/2024

モデル概要

PaliGemmaは、SigLIP視覚モデルやGemma言語モデルなどのオープンコンポーネントに基づいて構築された視覚言語モデルで、画像とテキストの入力を処理し、テキスト出力を生成することができます。

モデル特徴

多機能性
画像や短動画のキャプション、視覚的質問応答、物体検出、物体セグメンテーションなど、さまざまな視覚言語タスクをサポートします。
多言語対応
複数の言語の入力と出力を処理することができます。
軽量級設計
オープンコンポーネントに基づいて構築され、効率的なパフォーマンスを備えています。
データ責任フィルタリング
学習データは厳格にフィルタリングされ、内容の品質と安全性が確保されています。

モデル能力

画像キャプション生成
視覚的質問応答
物体検出
物体セグメンテーション
多言語テキスト生成
画像理解

使用事例

コンテンツ生成
多言語画像キャプション
画像に対して、異なる言語の説明的なキャプションを生成します。
出力例:'Un auto azul estacionado frente a un edificio.'(スペイン語)
視覚理解
視覚的質問応答
画像の内容に関する自然言語の質問に答えます。
コンピュータビジョン
物体検出
画像内の物体を識別し、バウンディングボックスの座標を出力します。
物体セグメンテーション
画像内の物体を識別し、セグメンテーションコードを出力します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase