P

Paligemma 3b Mix 224

Developed by google
PaliGemmaは多機能で軽量な視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力をサポートし、テキスト結果を出力します。
Downloads 143.03k
Release Time : 5/12/2024

Model Overview

PaliGemmaは画像とテキストを入力として受け取り、テキストを生成します。多言語をサポートしており、画像キャプション、視覚的質問応答、テキスト読み取り、物体検出、セグメンテーションなど、幅広い視覚言語タスクに使用できます。

Model Features

マルチタスクサポート
タスクプレフィックス設定により、検出、セグメンテーション、質問応答など、さまざまな視覚言語タスクを解決できます
軽量設計
わずか30億パラメータのコンパクトモデルで、さまざまなアプリケーションシナリオに適しています
多言語能力
複数の言語でのテキスト生成と理解をサポートします
責任あるAI
トレーニングデータは厳密にフィルタリングされ、安全でない、有害、または機密性の高いコンテンツが削除されています

Model Capabilities

画像キャプション生成
視覚的質問応答
テキスト読み取り
物体検出
物体セグメンテーション
多言語テキスト生成

Use Cases

コンテンツ理解
画像キャプション生成
入力画像に対して記述的なテキストを生成します
COCOキャプションバリデーションセットでCIDErスコア144.60(448解像度)
インテリジェントインタラクション
視覚的質問応答
画像の内容に関する質問に答えます
コンピュータビジョン
物体検出
画像内の物体を検出し、バウンディングボックスの座標を出力します
画像セグメンテーション
画像内の物体をセグメント化します
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase