P

Paligemma2 10b Mix 224

googleによって開発
PaliGemma 2はGemma 2をベースにした視覚言語モデルで、画像とテキストの入力をサポートし、テキスト出力を生成します。様々な視覚言語タスクに適しています。
ダウンロード数 701
リリース時間 : 11/21/2024

モデル概要

PaliGemma 2はアップグレード版の視覚言語モデルで、Gemma 2の能力を統合し、多言語をサポートしています。画像キャプション、視覚的質問応答、テキスト読み取り、物体検出とセグメンテーションなどのタスクに適しています。

モデル特徴

マルチタスクサポート
画像キャプション、視覚的質問応答、物体検出とセグメンテーションなど、様々な視覚言語タスクをサポートします。
多言語サポート
多言語のテキスト生成と質問応答タスクをサポートします。
高性能ファインチューニング
事前学習済みモデルとファインチューニング版を提供し、直接使用やさらなるファインチューニングに適しています。

モデル能力

画像キャプション
視覚的質問応答
光学文字認識
物体検出
物体セグメンテーション
多言語テキスト生成

使用事例

画像理解
画像キャプション生成
画像の短い説明または詳細な説明を生成します。
画像の内容に合った説明テキストを生成します。
視覚的質問応答
画像の内容に関する質問に答えます。
正確な回答テキストを生成します。
テキスト認識
光学文字認識
画像内のテキスト内容を認識します。
画像内のテキスト内容を生成します。
物体検出とセグメンテーション
物体検出
画像内の物体を検出し、バウンディングボックスの座標を返します。
物体のバウンディングボックス座標を生成します。
物体セグメンテーション
物体のセグメンテーション領域を生成します。
物体のセグメンテーションコードを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase