モデル概要
モデル特徴
モデル能力
使用事例
🚀 PaliGemma 2モデルカード
PaliGemma 2は、画像とテキストの入力を組み合わせて、テキスト出力を生成する多言語対応の視覚言語モデルです。このモデルは、様々な視覚言語タスクで優れた性能を発揮し、画像や短い動画の字幕作成、視覚的な質問応答、テキスト読み取りなどのシーンに適しています。
🚀 クイックスタート
Hugging Face上でPaliGemmaにアクセスするには、Googleの使用許諾を確認して同意する必要があります。Hugging Faceにログインした状態で、以下のボタンをクリックすると、リクエストがすぐに処理されます。 [許諾を確認する](Acknowledge license)
以下のコードスニペットは、モデルgoogle/paligemma2-3b-pt-896
を例にしています。これはベースモデルであり、下流タスクでの使用には微調整することをおすすめします。
こちらにノートブックがあり、PaliGemma 2をどのように微調整するかを示しています。
from transformers import (
PaliGemmaProcessor,
PaliGemmaForConditionalGeneration,
)
from transformers.image_utils import load_image
import torch
model_id = "google/paligemma2-3b-pt-896"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
image = load_image(url)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto").eval()
processor = PaliGemmaProcessor.from_pretrained(model_id)
# 事前学習モデルのプロンプトを空白にする
prompt = ""
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
input_len = model_inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
✨ 主な機能
- マルチモーダル入出力:画像とテキストを入力として受け取り、テキスト出力を生成し、多言語をサポートします。
- 幅広いタスクサポート:画像や短い動画の字幕作成、視覚的な質問応答、テキスト読み取り、物体検出や物体分割など、様々な視覚言語タスクに対応しています。
- 高性能な微調整:様々な視覚言語タスクで、優れた微調整性能を発揮します。
📚 ドキュメント
モデル情報
モデルの概要
PaliGemma 2は、PaliGemma視覚言語モデル(VLM)の更新版で、Gemma 2モデルの能力を融合しています。PaliGemmaシリーズのモデルは、PaLI - 3にインスパイアされ、SigLIP視覚モデルやGemma 2言語モデルなどのオープンコンポーネントをベースに構築されています。画像とテキストを入力として受け取り、テキスト出力を生成し、複数の言語をサポートし、画像や短い動画の字幕作成、視覚的な質問応答、テキスト読み取り、物体検出や物体分割など、幅広い視覚言語タスクで優れた微調整性能を提供することを目的としています。
モデルアーキテクチャ
PaliGemma 2は、TransformerデコーダーとVision Transformer画像エンコーダーで構成されています。テキストデコーダーは、パラメータサイズが2B、9B、27BのGemma 2から初期化されます。画像エンコーダーは、SigLIP - So400m/14から初期化されます。元のPaliGemmaモデルと同様に、PaliGemma 2はPaLI - 3の方法で訓練されています。
入力と出力
- 入力:画像とテキスト文字列(画像字幕のプロンプトや質問など)
- 出力:入力に基づいて生成されたテキスト(画像字幕、質問の答え、物体の境界ボックス座標のリスト、分割コードなど)
引用
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
モデルデータ
事前学習データセット
PaliGemma 2は、以下の混合データセットで事前学習されています。
- WebLI:WebLI (Web Language Image)は、公共のウェブを基に構築されたウェブ規模の多言語画像 - テキストデータセットです。視覚的な意味理解、物体の位置特定、視覚的な文脈テキスト理解、多言語能力などの汎用的なモデル能力を獲得するために、複数のWebLI分割が使用されています。
- CC3M - 35L:ウェブページから精心選択された英語の画像 - 代替テキストペア(Sharma et al., 2018)。Google Cloud Translation APIを使用して、さらに34の言語に翻訳されています。
- VQ²A - CC3M - 35L/VQG - CC3M - 35L:VQ2A - CC3Mのサブセット(Changpinyo et al., 2022a)で、Google Cloud Translation APIを使用して、CC3M - 35Lと同じ34の言語に翻訳されています。
- OpenImages:検出と物体認識の質問応答(Piergiovanni et al. 2022)で、[OpenImagesデータセット]上で手動ルールにより生成されています。
- WIT:ウィキペディアから収集された画像とテキスト(Srinivasan et al., 2021)。
データ責任フィルタリング
PaliGemma 2を安全で責任あるデータで訓練するために、WebLIには以下のフィルタリングが適用されています。
- 色情画像フィルタリング:色情的な性質と見なされる画像をフィルタリングします。
- テキストセキュリティフィルタリング:不安全なテキスト(児童性虐待画像(CSAI)、色情コンテンツ、下品な言葉、その他の不快なコンテンツを含むまたは関連するテキスト)とペアになった画像を識別してフィルタリングします。
- テキスト毒性フィルタリング:Perspective APIを使用して、侮辱的、猥褻的、仇恨的、その他の毒性のあると見なされるテキストとペアになった画像を識別してフィルタリングします。
- テキスト個人情報フィルタリング:Cloud Data Loss Prevention (DLP) APIを使用して、特定の個人情報やその他の敏感なデータをフィルタリングし、個人のプライバシーを保護します。社会保障番号や[その他の敏感な情報タイプ]などの識別子が削除されています。
- その他の方法:コンテンツの品質と安全性に基づいて、当社のポリシーと実践に従ってフィルタリングを行います。
技術詳細
ハードウェア
PaliGemma 2は、最新世代のテンソル処理ユニット(TPU)ハードウェア(TPUv5e)を使用して訓練されています。
ソフトウェア
JAX、Flax、TFDS、big_vision
を使用して訓練が行われています。
JAXにより、研究員は最新世代のハードウェア(TPUを含む)を利用して、大型モデルをより高速かつ効率的に訓練することができます。
TFDSはデータセットへのアクセスに、Flaxはモデルアーキテクチャに使用されています。PaliGemma 2の微調整コードと推論コードは、big_vision
のGitHubリポジトリで公開されています。
評価情報
ベンチマークテスト結果
PaliGemma 2の様々な学術タスクでの転移可能性を検証するために、各タスクで事前学習モデルを微調整しています。異なる解像度での結果を報告し、どのタスクがより高い解像度から恩恵を受けるかを把握しています。重要なことは、これらのタスクやデータセットは事前学習データ混合の一部ではなく、それらの画像はウェブ規模の事前学習データから明確に除外されているということです。
PaliGemma 2のモデル解像度とサイズ別の結果
ベンチマーク | 224 - 3B | 224 - 10B | 224 - 28B | 448 - 3B | 448 - 10B | 448 - 28B |
---|---|---|---|---|---|---|
[AI2D][ai2d] | 74.7 | 83.1 | 83.2 | 76.0 | 84.4 | 84.6 |
[AOKVQA - DA][aokvqa - da] (val) | 64.2 | 68.9 | 70.2 | 67.9 | 70.8 | 71.2 |
[AOKVQA - MC][aokvqa - mc] (val) | 79.7 | 83.7 | 84.7 | 82.5 | 85.9 | 87.0 |
[ActivityNet - CAP][anet - cap] | 34.2 | 35.9 | - | - | - | - |
[ActivityNet - QA][anet - qa] | 51.3 | 53.2 | - | - | - | - |
[COCO - 35L][coco - 35l] (avg34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
[COCO - 35L][coco - 35l] (en) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
[COCOcap][coco - cap] | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
[ChartQA][chartqa] (aug) | 74.4 | 74.2 | 68.9 | 89.2 | 90.1 | 85.1 |
[ChartQA][chartqa] (human) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
[CountBenchQA][countbenchqa] | 81.0 | 84.0 | 86.4 | 82.0 | 85.3 | 87.4 |
[DocVQA][docvqa] (val) | 39.9 | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
[GQA][gqa] | 66.2 | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
[InfoVQA][info - vqa] (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
[MARVL][marvl] (avg5) | 83.5 | 89.5 | 90.6 | 82.7 | 89.1 | 89.7 |
[MSRVTT - CAP][msrvtt] | 68.5 | 72.1 | - | - | - | - |
[MSRVTT - QA][msrvtt] | 50.5 | 51.9 | - | - | - | - |
[MSVD - QA][msvd - qa] | 61.1 | 62.5 | - | - | - | - |
[NLVR2][nlvr2] | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
[NoCaps][nocaps] | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
[OCR - VQA][ocr - vqa] | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
[OKVQA][okvqa] | 64.2 | 68.0 | 71.2 | 64.1 | 68.6 | 70.6 |
[RSVQA - hr][rsvqa - hr] (test) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
[RSVQA - hr][rsvqa - hr] (test2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
[RSVQA - lr][rsvqa - lr] | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
[RefCOCO][refcoco] (testA) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
[RefCOCO][refcoco] (testB) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
[RefCOCO][refcoco] (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
[RefCOCO+][refcoco+] (testA) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
[RefCOCO+][refcoco+] (testB) | 64.2 | 68.4 | 67.1 | 67.0 | 71.1 | 68.6 |
[RefCOCO+][refcoco+] (val) | 68.6 | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
[RefCOCOg][refcocog] (test) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
[RefCOCOg][refcocog] (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
[ST - VQA][st - vqa] (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | 81.8 |
[SciCap][scicap] | 165.1 | 159.5 | 156.9 | 183.3 | 177.2 | 172.7 |
[ScienceQA][scienceqa] | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
[Screen2Words][screen2words] | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
[TallyQA][tallyqa] (complex) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
[TallyQA][tallyqa] (simple) | 81.8 | 83.2 | 83.4 | 85.3 | 86.2 | 85.7 |
[TextCaps][textcaps] | 127.5 | 137.9 | 139.9 | 152.1 | 157.7 | 153.6 |
[TextVQA][textvqa] (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
[VATEX][vatex] | 80.8 | 82.7 | - | - | - | - |
[VQAv2][vqav2] (minival) | 83.0 | 84.3 | 84.5 | 84.8 | 85.8 | 85.8 |
[VizWizVQA][vizwiz - vqa] (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
[WidgetCap][widgetcap] | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148.9 |
[XM3600][xm3600] (avg35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
[XM3600][xm3600] (en) | 79.8 | 80.7 | 81.0 | 80.3 | 81.5 | 81.0 |
[xGQA][xgqa] (avg7) | 58.6 | 61.4 | 61.1 | 60.4 | 62.6 | 62.1 |
追加のベンチマーク
[ICDAR 2015 Incidental][icdar2015 - inc]
モデル | 精度 | 再現率 | F1 |
---|---|---|---|
PaliGemma 2 3B | 81.88 | 70.73 | 75.9 |
[Total - Text][total - text]
モデル | 精度 | 再現率 | F1 |
---|---|---|---|
PaliGemma 2 3B | 73.8 | 74.54 | 74.17 |
[FinTabNet][fintabnet]
モデル | S - TEDS | TEDS | GriTS - Top | GriTS - Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | 98.94 | 99.43 | 99.21 |
[PubTabNet][pubtabnet]
モデル | S - TEDS | TEDS | GriTS - Top | GriTS - Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97.31 | 97.99 | 97.84 |
[GrandStaff][grandstaff]
モデル | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1.6 | 6.7 | 2.3 |
[PubChem][pubchem]
- PaliGemma 2 3B、完全一致:94.8
[DOCCI][docci]
モデル | 平均文字数 | 平均文数 | 非含意文の割合 |
---|---|---|---|
PaliGemma 2 3B | 529 | 7.74 | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- 平均文字数:平均文字数
- 平均文数:平均文数
- 非含意文の割合:非含意文の割合
[MIMIC - CXR][mimic - cxr]
モデル | CIDEr | BLEU4 | Rouge - L | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9% | 14.6% | 31.92% | 28.8% |
PaliGemma 2 10B | 17.4% | 15% | 32.41% | 29.5% |
[Visual Spatial Reasoning][vsr]
モデル | VSRゼロショット分割(テスト) | VSRランダム分割(テスト) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
倫理とセキュリティ
評価方法
当社の評価方法には、関連するコンテンツポリシーにまたがる構造化された倫理とセキュリティ評価が含まれています。
- 子供の安全、コンテンツの安全、表現の危害をカバーするプロンプトに対する人為的な評価。評価方法の詳細については、Gemmaモデルカードを参照してくださいが、画像字幕と視覚的な質問応答の設定を採用しています。
- 画像からテキストへのベンチマーク評価:関連する学術データセット(FairFaceデータセット(Karkkainen et al., 2021)など)に対するベンチマークテスト。
評価結果
- 倫理とセキュリティ評価の人為的な評価結果は、子供の安全、コンテンツの安全、表現の危害などのカテゴリに関する内部ポリシーの許容範囲内です。
- 強力な内部評価に加えて、Perspective API(閾値0.8)を使用して、FairFaceデータセットから取得した画像の生成字幕の毒性、猥褻、その他の潜在的な問題を測定しています。各知覚される性別、人種、年齢属性のサブグループで観察された最大値と中央値を報告しています。
指標 | 知覚される性別(3B) | 知覚される性別(10B) | 知覚される性別(28B) | 人種(3B) | 人種(10B) | 人種(28B) | 年齢グループ(3B) | 年齢グループ(10B) | 年齢グループ(28B) |
---|---|---|---|---|---|---|---|---|---|
最大値 | |||||||||
毒性 | 0.14% | 0.15% | 0.19% | 0.29% | 0.39% | 0.39% | 0.26% | 0.18% | 0.32% |
身份攻撃 | 0.04% | 0.02% | 0.02% | 0.13% | 0.06% | 0.06% | 0.06% | 0.03% | 0.06% |
侮辱 | 0.17% | 0.25% | 0.17% | 0.37% | 0.52% | 0.52% | 0.27% | 0.39% | 0.24% |
脅威 | 0.55% | 0.43% | 0.57% | 0.83% | 0.48% | 0.48% | 0.64% | 0.43% | 0.64% |
猥褻 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
中央値 | |||||||||
毒性 | 0.13% | 0.10% | 0.18% | 0.07% | 0.07% | 0.14% | 0.12% | 0.08% | 0.12% |
身份攻撃 | 0.02% | 0.01% | 0.02% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
侮辱 | 0.15% | 0.23% | 0.14% | 0.14% | 0.17% | 0.13% | 0.09% | 0.18% | 0.16% |
脅威 | 0.35% | 0.27% | 0.41% | 0.28% | 0.19% | 0.42% | 0.27% | 0.31% | 0.40% |
猥褻 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
使用と制限
想定される用途
オープン視覚言語モデル(VLM)は、様々な業界や分野で幅広い応用が可能です。以下はいくつかの応用シーンです。
- 画像と動画の理解:画像や短い動画の字幕を生成し、画像の内容に関する質問に答えます。
- 視覚的な検索:テキストクエリを使って関連する画像を検索します。
- 支援設計:テキスト記述に基づいて設計スケッチや画像を生成します。
- 教育:学生が画像内の情報を理解し、視覚的な学習を行うのを支援します。
制限
- データの偏り:モデルの性能は、事前学習データの偏りの影響を受ける可能性があり、特定のタスクや分野での性能が低下することがあります。
- セキュリティと倫理の問題:データフィルタリングを行っていますが、モデルは偏見、差別、その他の不適切な内容を含む出力を生成する可能性があります。
- 計算リソースの要件:モデルの訓練と微調整には、大量の計算リソースと時間が必要です。
📄 ライセンス
このモデルは、Gemmaライセンスに従っています。
モデルページ
リソースと技術ドキュメント
使用条件
著者








