P

Paligemma 3b Pt 224

googleによって開発
PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を同時に処理しテキスト出力を生成できます。
ダウンロード数 38.40k
リリース時間 : 5/12/2024

モデル概要

PaliGemmaは30億パラメータの視覚言語モデルで、画像キャプション生成、視覚的質問応答、テキスト読み取り、物体検出、セグメンテーションなど、様々な視覚言語タスク向けに設計されています。

モデル特徴

軽量設計
わずか30億パラメータで、リソースが限られた環境での展開に適しています
マルチタスクサポート
タスクプレフィックス設定により、質問応答、検出、セグメンテーションなど様々な視覚言語タスクをサポート
多言語能力
複数言語のテキスト生成と理解をサポート
オープンコンポーネント
SigLIPやGemmaなどのオープンモデルを基に構築

モデル能力

画像キャプション生成
視覚的質問応答
テキスト読み取り
物体検出
画像セグメンテーション
多言語テキスト生成

使用事例

支援技術
視覚障害者支援
視覚障害者のために画像内容を説明
コンテンツモデレーション
画像コンテンツ分析
画像内のオブジェクトやシーンを自動識別・説明
教育
多言語学習支援
異なる言語の画像説明を生成して言語学習を支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase