P

Paligemma2 10b Pt 448

googleによって開発
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキスト入力をサポートしてテキスト出力を生成します。
ダウンロード数 282
リリース時間 : 11/21/2024

モデル概要

SigLIP視覚モデルとGemma 2言語モデルを基に構築されたマルチモーダルモデルで、視覚言語タスクに最適化されており、多言語と様々な下流タスクのファインチューニングをサポートします。

モデル特徴

マルチモーダル理解
画像とテキスト入力を同時に処理し、クロスモーダルな理解と生成を実現
マルチタスク適応
画像キャプション生成、視覚的質問応答、テキスト読み取り、物体検出、セグメンテーションなど様々なタスクをサポート
高解像度処理
448×448ピクセルの画像入力をサポートし、細粒度の視覚理解能力を向上
責任あるAI
訓練データは厳格な安全フィルタリングを経ており、不適切な内容やプライバシー情報を除去

モデル能力

画像キャプション生成
視覚的質問応答
多言語テキスト生成
物体検出
画像セグメンテーション
ショートビデオ理解

使用事例

コンテンツ理解
自動画像タグ付け
画像に対して記述的なテキストラベルを生成
COCO-35L英語テストセットでCIDErスコア142.4を達成
視覚的質問応答システム
画像内容に関する自然言語質問に回答
AOKVQA検証セットで精度70.8%を達成
ドキュメント処理
ドキュメント視覚的質問応答
スキャンされたドキュメント内のテキストとレイアウトを理解
DocVQA検証セットで精度76.6%を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase