P

Paligemma2 10b Pt 224

Developed by google
PaliGemma 2はビジュアル言語モデル(VLM)で、Gemma 2モデルの能力を組み合わせて、画像とテキストの入力を同時に処理し、テキスト出力を生成することができ、複数の言語をサポートします。画像や短い動画の字幕、ビジュアル質問応答、テキスト閲読、目標検出、目標分割など、さまざまなビジュアル言語タスクに適しています。
Downloads 3,362
Release Time : 11/21/2024

Model Overview

PaliGemma 2はPaliGemmaビジュアル言語モデルの更新バージョンで、Gemma 2モデルの能力を融合しています。SigLIPビジュアルモデルやGemma 2言語モデルなどのオープンコンポーネントに基づいて構築されており、幅広いビジュアル言語タスクで優れた微調整性能を実現することを目的としています。

Model Features

マルチモーダル処理
画像とテキストの入力を同時に処理し、テキスト出力を生成することができます。
多言語サポート
複数の言語をサポートし、異なる地域のユーザーに適しています。
高性能微調整
さまざまなビジュアル言語タスクで優れた微調整性能を実現するように設計されています。
オープンコンポーネント構築
SigLIPビジュアルモデルとGemma 2言語モデルに基づいて構築されており、高度な柔軟性と拡張性を持っています。

Model Capabilities

画像字幕生成
ビジュアル質問応答
テキスト閲読
目標検出
目標分割
多言語処理

Use Cases

画像と動画の理解
画像字幕生成
画像に対して説明的な字幕を生成します。
COCO - 35Lデータセットで、英語字幕のスコアは142.4(100億モデル)です。
短い動画の字幕
短い動画に対して説明的な字幕を生成します。
ActivityNet - CAPデータセットでのスコアは35.9(100億モデル)です。
ビジュアル質問応答
オープン知識ビジュアル質問応答
外部知識が必要なビジュアル質問に回答します。
AOKVQA - DA検証セットでのスコアは68.9(100億モデル)です。
科学的な質問応答
科学関連のビジュアル質問に回答します。
ScienceQAデータセットでの正解率は98.2%(100億モデル)です。
ドキュメント処理
ドキュメント質問応答
ドキュメント画像に基づく質問に回答します。
DocVQA検証セットでのスコアは43.9(224解像度の100億モデル)です。
表の理解
表の画像を解析して理解します。
FinTabNetデータセットでのTEDSスコアは98.94(30億モデル)です。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase