P

Paligemma2 3b Mix 448

googleによって開発
PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを生成する出力を行い、さまざまな視覚言語タスクに適しています。
ダウンロード数 20.55k
リリース時間 : 11/21/2024

モデル概要

PaliGemma 2はアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を組み合わせ、多言語をサポートし、画像キャプション、視覚的質問応答、テキスト読み取り、物体検出とセグメンテーションなどのタスクのために設計されています。

モデル特徴

マルチタスクサポート
画像キャプション、視覚的質問応答、物体検出とセグメンテーションなど、さまざまな視覚言語タスクをサポートします。
多言語能力
さまざまな言語のテキスト入力と出力をサポートし、国際的なアプリケーションシナリオに適しています。
効率的なファインチューニング
事前トレーニングとファインチューニングバージョンを提供し、さらなるカスタマイズタスクに適しています。

モデル能力

画像キャプション生成
視覚的質問応答
光学文字認識
物体検出
物体セグメンテーション

使用事例

画像理解
画像キャプション生成
画像の短いまたは詳細な説明を生成し、複数の言語をサポートします。
高品質な説明で、自動コンテンツ生成に適しています。
視覚的質問応答
画像内容に関する自然言語の質問に答えます。
正確な回答で、インテリジェントアシスタントや教育アプリケーションに適しています。
ドキュメント処理
光学文字認識
画像からテキスト内容を抽出します。
高精度なテキスト認識で、ドキュメントのデジタル化に適しています。
コンピュータビジョン
物体検出とセグメンテーション
画像内の物体を位置特定し、境界ボックスまたはセグメンテーション領域を生成します。
正確な物体位置特定で、自動監視や産業検査に適しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase