P

Paligemma 3b Ft Ocrvqa 448

googleによって開発
PaliGemmaはGoogleが開発した多機能軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキスト入力をサポートし、テキスト結果を出力します。
ダウンロード数 365
リリース時間 : 5/12/2024

モデル概要

448*448入力画像に基づきOCR-VQAデータセットでファインチューニングされた30億パラメータモデルで、視覚言語タスク(画像キャプション生成、視覚質問応答、テキスト読み取りなど)向けに設計されています。

モデル特徴

軽量多機能
わずか30億パラメータながら多様な視覚言語タスク処理能力を備える
多解像度サポート
224/448/896など多様な入力解像度をサポートし、異なるタスク要求に対応
タスクプレフィックス設定
タスクプレフィックス(例:'detect'や'segment')で柔軟にモデル処理タスクを設定
責任あるデータフィルタリング
トレーニングデータは厳格なコンテンツセキュリティと個人情報フィルタリングを経ている

モデル能力

画像キャプション生成
視覚質問応答
テキスト読み取り
物体検出
画像セグメンテーション
多言語処理

使用事例

ドキュメント処理
OCR-VQA
画像内のテキスト内容に基づく質問応答
テスト精度74.93%(896解像度)
DocVQA
ドキュメント画像質問応答
ANLS 84.77(896解像度)
汎用視覚理解
画像キャプション生成
画像に対する多言語説明文生成
COCOデータセットCIDEr 144.60(448解像度)
視覚質問応答
画像内容に関する質問に回答
VQAv2テスト精度85.64%
専門分野
科学図表理解
科学図表内容の解析
SciCapテストCIDEr 181.49
リモートセンシング画像分析
リモートセンシング画像に関する質問に回答
RSVQA-HRテスト精度92.79%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase