P

Paligemma 3b Mix 224

googleによって開発
PaliGemmaは多機能で軽量な視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力をサポートし、テキスト結果を出力します。
ダウンロード数 143.03k
リリース時間 : 5/12/2024

モデル概要

PaliGemmaは画像とテキストを入力として受け取り、テキストを生成します。多言語をサポートしており、画像キャプション、視覚的質問応答、テキスト読み取り、物体検出、セグメンテーションなど、幅広い視覚言語タスクに使用できます。

モデル特徴

マルチタスクサポート
タスクプレフィックス設定により、検出、セグメンテーション、質問応答など、さまざまな視覚言語タスクを解決できます
軽量設計
わずか30億パラメータのコンパクトモデルで、さまざまなアプリケーションシナリオに適しています
多言語能力
複数の言語でのテキスト生成と理解をサポートします
責任あるAI
トレーニングデータは厳密にフィルタリングされ、安全でない、有害、または機密性の高いコンテンツが削除されています

モデル能力

画像キャプション生成
視覚的質問応答
テキスト読み取り
物体検出
物体セグメンテーション
多言語テキスト生成

使用事例

コンテンツ理解
画像キャプション生成
入力画像に対して記述的なテキストを生成します
COCOキャプションバリデーションセットでCIDErスコア144.60(448解像度)
インテリジェントインタラクション
視覚的質問応答
画像の内容に関する質問に答えます
コンピュータビジョン
物体検出
画像内の物体を検出し、バウンディングボックスの座標を出力します
画像セグメンテーション
画像内の物体をセグメント化します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase