P

Paligemma2 10b Pt 896

googleによって開発
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキストの入力からテキスト出力を生成可能
ダウンロード数 233
リリース時間 : 11/21/2024

モデル概要

SigLIP視覚モデルとGemma 2言語モデルを基盤としたマルチモーダルモデルで、画像キャプション生成、視覚的質問応答、テキスト読み取り、物体検出・セグメンテーションなどの視覚言語タスクに優れる

モデル特徴

マルチモーダル理解
画像とテキスト入力を同時処理し、クロスモーダルな理解と生成を実現
高解像度サポート
896×896の高解像度画像入力をサポートし、詳細理解能力を向上
マルチタスク適応
微調整により、検出・セグメンテーション・QAなど多様な視覚言語タスクに適応可能
責任あるAI
訓練データは厳格な安全フィルタリングを経ており、不適切な内容や個人情報を除去

モデル能力

画像キャプション生成
視覚的質問応答
多言語テキスト生成
物体検出
画像セグメンテーション
テキスト読み取り
ショート動画理解

使用事例

コンテンツ理解
自動画像タグ付け
画像に対して記述的なテキストを生成
COCO-35Lデータセットで英語キャプションスコア142.4 CIDErを達成
文書解析
スキャン文書からテキストを抽出・解釈
DocVQA検証セットで76.6%の精度を達成
インテリジェントインタラクション
視覚的質問応答システム
画像内容に関する複雑な質問に回答
AOKVQA多肢選択タスクで87%の精度を達成
チャート理解
チャートデータの解析と解釈
ChartQA人間注釈データで66.4%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase