P

Paligemma2 10b Mix 448

googleによって開発
PaliGemma 2はGemma 2を基にした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを出力します。様々な視覚言語タスクに適しています。
ダウンロード数 31.63k
リリース時間 : 11/21/2024

モデル概要

PaliGemma 2はPaliGemma視覚言語モデルのアップデート版で、Gemma 2モデルの能力を統合し、画像キャプション生成、視覚的質問応答、テキスト読み取り、物体検出やセグメンテーションなど多様なタスクをサポートします。

モデル特徴

マルチタスクサポート
画像キャプション生成、視覚的質問応答、テキスト読み取り、物体検出やセグメンテーションなど多様な視覚言語タスクをサポートします。
多言語能力
多様な言語のテキスト生成と理解をサポートします。
高解像度処理
448x448の入力画像解像度をサポートし、視覚タスクの精度を向上させます。
責任あるAI
複数のデータフィルタリング方法を適用し、トレーニングデータの安全性と責任を確保します。

モデル能力

画像キャプション生成
視覚的質問応答
光学文字認識
物体検出
画像セグメンテーション
多言語テキスト生成

使用事例

コンテンツ生成
画像キャプション生成
画像に対して短いキャプションや詳細な説明を生成します。
COCO-35Lデータセットで142.4 CIDErスコア(英語)を達成
動画キャプション生成
短い動画に対して説明的なキャプションを生成します。
視覚的理解
視覚的質問応答
画像内容に関する自然言語の質問に答えます。
AOKVQA-DA検証セットで70.8%の精度を達成
テキスト読み取り
画像からテキスト内容を認識し抽出します。
DocVQA検証セットで76.6%の精度を達成
コンピュータビジョン
物体検出
画像中の物体を検出し、バウンディングボックスの座標を返します。
画像セグメンテーション
画像中の物体が占める領域を特定し、セグメンテーションマスクを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase