P

Paligemma 3b Pt 224

Developed by google
PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を同時に処理しテキスト出力を生成できます。
Downloads 38.40k
Release Time : 5/12/2024

Model Overview

PaliGemmaは30億パラメータの視覚言語モデルで、画像キャプション生成、視覚的質問応答、テキスト読み取り、物体検出、セグメンテーションなど、様々な視覚言語タスク向けに設計されています。

Model Features

軽量設計
わずか30億パラメータで、リソースが限られた環境での展開に適しています
マルチタスクサポート
タスクプレフィックス設定により、質問応答、検出、セグメンテーションなど様々な視覚言語タスクをサポート
多言語能力
複数言語のテキスト生成と理解をサポート
オープンコンポーネント
SigLIPやGemmaなどのオープンモデルを基に構築

Model Capabilities

画像キャプション生成
視覚的質問応答
テキスト読み取り
物体検出
画像セグメンテーション
多言語テキスト生成

Use Cases

支援技術
視覚障害者支援
視覚障害者のために画像内容を説明
コンテンツモデレーション
画像コンテンツ分析
画像内のオブジェクトやシーンを自動識別・説明
教育
多言語学習支援
異なる言語の画像説明を生成して言語学習を支援
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase