P

Paligemma 3b Ft Science Qa 224

googleによって開発
PaliGemmaは、画像とテキストの入力をサポートし、テキスト出力を生成する、多機能の軽量級ビジュアル言語モデル(VLM)です。様々なビジュアル言語タスクに適しています。
ダウンロード数 113
リリース時間 : 5/12/2024

モデル概要

PaliGemmaは、オープンコンポーネントを基に構築されたビジュアル言語モデルで、SigLIPビジュアルモデルとGemma言語モデルを組み合わせています。多言語処理をサポートし、画像字幕、ビジュアル質問応答、テキスト読み取り、目標検出と分割などのタスクに適しています。

モデル特徴

多機能性
質問応答、字幕生成、分割など、様々なビジュアル言語タスクをサポートします。
多言語対応
複数の言語の入力と出力を処理することができます。
軽量級設計
オープンコンポーネントを基に構築されており、使用とデプロイが容易です。
高性能微調整
特定のタスクで微調整すると、最高の性能を発揮します。

モデル能力

画像字幕生成
ビジュアル質問応答
目標検出
目標分割
多言語テキスト生成

使用事例

画像処理
画像字幕生成
画像に対して記述的な字幕を生成し、複数の言語をサポートします。
正確で多言語の画像記述を生成します。
目標検出
画像内の目標を検出し、そのバウンディングボックスの座標を返します。
高精度の目標位置特定。
質問応答システム
ビジュアル質問応答
画像の内容に関する自然言語の質問に回答します。
画像に関連する質問に正確に回答します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase