P

Paligemma 3b Ft Scicap 448

googleによって開発
PaliGemmaは、画像とテキストの入力を組み合わせてテキスト出力を生成する、多機能の軽量級ビジュアル言語モデルで、多言語をサポートしています。
ダウンロード数 123
リリース時間 : 5/13/2024

モデル概要

オープンコンポーネントを基に構築されたビジュアル言語モデルで、画像キャプション、ビジュアル質問応答、テキスト読み取り、物体検出とセグメンテーションなどのさまざまなタスクに適しています。

モデル特徴

多機能性
質問応答、キャプション生成、セグメンテーションなど、さまざまなビジュアル言語タスクをサポートします。
多言語対応
35言語をカバーする、さまざまな言語の入力と出力を処理することができます。
軽量級設計
さまざまなシーンでの微調整に適しており、リソース要件が低いです。
オープンコンポーネント構築
SigLIPビジュアルモデルやGemma言語モデルなどのオープンコンポーネントを基に構築されています。

モデル能力

画像キャプション生成
ビジュアル質問応答
テキスト読み取り
物体検出
物体セグメンテーション
多言語処理

使用事例

画像理解
画像キャプション生成
画像に対して記述的なキャプションを生成し、多言語をサポートします。
COCO captions検証セットでCIDErスコア144.60(448解像度)
ビジュアル質問応答
画像の内容に関する自然言語の質問に回答します。
VQAv2テストセットで正解率85.64%
文書分析
文書質問応答
文書画像から情報を抽出し、質問に回答します。
DocVQAテストセットでANLSスコア84.77(896解像度)
テキスト認識
画像内のテキスト内容を認識します。
TextVQAテストセットで正解率76.48%
物体検出とセグメンテーション
物体検出
画像内の特定の物体を検出し、位置を特定します。
RefCOCO検証セットでMIoU 76.94(896解像度)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase