P

Paligemma2 28b Mix 448

googleによって開発
PaliGemma 2はGemma 2ベースの視覚言語モデルで、画像+テキスト入力をサポートし、テキスト応答を出力します。様々な視覚言語タスクに適しています。
ダウンロード数 198
リリース時間 : 11/21/2024

モデル概要

PaliGemma 2はPaliGemma視覚言語モデルのアップグレード版で、Gemma 2モデルの能力を統合し、多言語入力(画像+テキスト)をサポートしてテキストを出力します。画像/ショートビデオの説明、視覚的質問応答、テキスト読み取り、物体検出とセグメンテーションなどのタスクの優れたファインチューニング性能のために設計されています。

モデル特徴

マルチタスクサポート
短い/長い説明生成、光学文字認識、質問応答、物体検出とセグメンテーションなど様々なタスクをサポート。
高性能ファインチューニング
多様なタスクセットに対してファインチューニングされており、そのまま使用またはさらにファインチューニング可能。
多言語入力
多言語テキスト入力をサポートし、グローバルなアプリケーションシーンに適しています。

モデル能力

画像説明生成
視覚的質問応答
光学文字認識
物体検出
画像セグメンテーション

使用事例

画像理解
画像説明生成
画像の簡潔または詳細な説明を生成。
多言語での説明生成をサポート。
視覚的質問応答
画像内容に関する質問に回答。
AOKVQA-DAベンチマークで71.2の精度を達成。
ドキュメント処理
光学文字認識
画像中のテキスト内容を認識。
ICDAR 2015 IncベンチマークでF1スコア75.9を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase