Model Overview
Model Features
Model Capabilities
Use Cases
🚀 PaliGemma 2モデルカード
PaliGemma 2は、視覚言語モデル(VLM)です。このモデルはGemma 2の能力を活用し、画像とテキストの入力を同時に処理し、テキスト出力を生成することができ、複数の言語をサポートしています。このモデルは、画像や短い動画の字幕作成、視覚的な質問応答、テキスト読み取り、物体検出、物体分割など、様々な視覚言語タスクに適しています。
🚀 クイックスタート
Hugging Face上でPaliGemma 2にアクセスするには、Googleの使用許諾を確認し、同意する必要があります。Hugging Faceにログインしていることを確認し、以下のボタンをクリックしてください。リクエストはすぐに処理されます。 [許諾を確認する](Acknowledge license)
モデルページ:PaliGemma
Transformers PaliGemma 2 10Bの重みは、224*224の入力画像と128トークンの入力/出力テキストシーケンスで事前学習されています。このモデルはbfloat16
形式で提供され、微調整に使用できます。
リソースと技術文書:
利用規約:規約
作者:Google
✨ 主な機能
- マルチモーダル処理:画像とテキストの入力を同時に処理し、テキスト出力を生成することができます。
- 多言語対応:複数の言語をサポートしており、世界各地のユーザーに適しています。
- 高性能微調整:様々な視覚言語タスクで優れた微調整性能を発揮するように設計されています。
💻 使用例
基本的な使用法
from transformers import (
PaliGemmaProcessor,
PaliGemmaForConditionalGeneration,
)
from transformers.image_utils import load_image
import torch
model_id = "google/paligemma2-10b-pt-224"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
image = load_image(url)
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto").eval()
processor = PaliGemmaProcessor.from_pretrained(model_id)
# 事前学習モデルの場合は、プロンプトを空にする
prompt = ""
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
input_len = model_inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
こちらのノートブックでは、PaliGemma 2の微調整方法が示されています。
📚 ドキュメント
モデル情報
モデルの概要
PaliGemma 2は、PaliGemma視覚言語モデル(VLM)の更新版で、Gemma 2モデルの能力を融合しています。PaliGemmaシリーズのモデルは、PaLI - 3にインスパイアされ、SigLIP視覚モデルやGemma 2言語モデルなどのオープンコンポーネントをベースに構築されています。このモデルは、画像とテキストを入力として受け取り、テキストを出力として生成し、複数の言語をサポートしています。このモデルは、画像や短い動画の字幕作成、視覚的な質問応答、テキスト読み取り、物体検出、物体分割など、幅広い視覚言語タスクで優れた微調整性能を実現することを目的としています。
モデルアーキテクチャ
PaliGemma 2は、TransformerデコーダーとVision Transformer画像エンコーダーで構成されています。テキストデコーダーは、パラメータサイズが2B、9B、27BのGemma 2から初期化されます。画像エンコーダーは、SigLIP - So400m/14から初期化されます。元のPaliGemmaモデルと同様に、PaliGemma 2はPaLI - 3の方法に従って学習されます。
入力と出力
- 入力:画像とテキスト文字列(画像の字幕プロンプトや質問など)。
- 出力:入力に基づいて生成されたテキスト(画像の字幕、質問の答え、物体の境界ボックス座標のリスト、分割コードなど)。
引用
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
モデルデータ
事前学習データセット
PaliGemma 2は、以下のデータセットの混合データで事前学習されています:
- WebLI:WebLI(Web Language Image)は、公共のウェブを基に構築されたウェブ規模の多言語画像 - テキストデータセットです。視覚的な意味理解、物体の位置特定、視覚的な文脈のテキスト理解、多言語能力など、一般的なモデル能力を獲得するために、さまざまなWebLI分割が使用されています。
- CC3M - 35L:ウェブページから選りすぐられた英語の画像 - 代替テキストペア(Sharmaら、2018)。Google Cloud Translation APIを使用して、さらに34の言語に翻訳されています。
- VQ²A - CC3M - 35L/VQG - CC3M - 35L:VQ2A - CC3Mのサブセット(Changpinyoら、2022a)で、Google Cloud Translation APIを使用して、CC3M - 35Lと同じ34の言語に翻訳されています。
- OpenImages:OpenImagesデータセットを基に、手作業のルールによって生成された検出と物体認識の質問と答え。
- WIT:ウィキペディアから収集された画像とテキスト(Srinivasanら、2021)。
データ責任フィルタリング
PaliGemma 2が安全で責任あるデータで学習されるように、WebLIには以下のフィルタリング方法が適用されています:
- 色情画像フィルタリング:色情的な性質を持つと見なされる画像を削除します。
- テキストセキュリティフィルタリング:不安全なテキストとペアになっている画像を識別し、フィルタリングします。不安全なテキストには、児童性虐待画像(CSAI)、色情コンテンツ、下品な言葉、その他の不快な内容を含むまたは関連するテキストが含まれます。
- テキスト毒性フィルタリング:Perspective APIを使用して、侮辱的、猥褻的、憎悪的、またはその他の毒性のあると見なされるテキストとペアになっている画像を識別し、フィルタリングします。
- テキスト個人情報フィルタリング:Cloud Data Loss Prevention (DLP) APIを使用して、特定の個人情報やその他の敏感なデータをフィルタリングし、個人情報を保護します。社会保障番号や[その他の敏感な情報タイプ]などの識別子が削除されます。
- その他の方法:コンテンツの品質と安全性に基づき、当社のポリシーと実践に従ってフィルタリングします。
🔧 技術詳細
ハードウェア
PaliGemma 2は、最新世代のテンソル処理ユニット(TPU)ハードウェア(TPUv5e)を使用して学習されています。
ソフトウェア
学習には、JAX、Flax、TFDS、big_vision
が使用されています。
JAXにより、研究人員は最新世代のハードウェア(TPUを含む)を利用して、より高速で効率的な大規模モデルの学習を行うことができます。TFDSはデータセットへのアクセスに、Flaxはモデルアーキテクチャに使用されます。PaliGemma 2の微調整コードと推論コードは、big_vision
のGitHubリポジトリで公開されています。
📊 評価情報
ベンチマークテスト結果
PaliGemma 2の様々な学術タスクへの移行可能性を検証するために、各タスクで事前学習モデルを微調整しました。より高い解像度がどのタスクに有益かを理解するために、異なる解像度での結果を報告しています。重要なことは、これらのタスクやデータセットは事前学習データの混合に含まれておらず、その画像はウェブ規模の事前学習データから明示的に除外されているということです。
PaliGemma 2のモデル解像度とサイズ別の結果
ベンチマーク | 224 - 3B | 224 - 10B | 224 - 28B | 448 - 3B | 448 - 10B | 448 - 28B |
---|---|---|---|---|---|---|
[AI2D][ai2d] | 74.7 | 83.1 | 83.2 | 76.0 | 84.4 | 84.6 |
[AOKVQA - DA][aokvqa - da] (val) | 64.2 | 68.9 | 70.2 | 67.9 | 70.8 | 71.2 |
[AOKVQA - MC][aokvqa - mc] (val) | 79.7 | 83.7 | 84.7 | 82.5 | 85.9 | 87.0 |
[ActivityNet - CAP][anet - cap] | 34.2 | 35.9 | - | - | - | - |
[ActivityNet - QA][anet - qa] | 51.3 | 53.2 | - | - | - | - |
[COCO - 35L][coco - 35l] (avg34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
[COCO - 35L][coco - 35l] (en) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
[COCOcap][coco - cap] | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
[ChartQA][chartqa] (aug) | 74.4 | 74.2 | 68.9 | 89.2 | 90.1 | 85.1 |
[ChartQA][chartqa] (human) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
[CountBenchQA][countbenchqa] | 81.0 | 84.0 | 86.4 | 82.0 | 85.3 | 87.4 |
[DocVQA][docvqa] (val) | 39.9 | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
[GQA][gqa] | 66.2 | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
[InfoVQA][info - vqa] (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
[MARVL][marvl] (avg5) | 83.5 | 89.5 | 90.6 | 82.7 | 89.1 | 89.7 |
[MSRVTT - CAP][msrvtt] | 68.5 | 72.1 | - | - | - | - |
[MSRVTT - QA][msrvtt] | 50.5 | 51.9 | - | - | - | - |
[MSVD - QA][msvd - qa] | 61.1 | 62.5 | - | - | - | - |
[NLVR2][nlvr2] | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
[NoCaps][nocaps] | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
[OCR - VQA][ocr - vqa] | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
[OKVQA][okvqa] | 64.2 | 68.0 | 71.2 | 64.1 | 68.6 | 70.6 |
[RSVQA - hr][rsvqa - hr] (test) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
[RSVQA - hr][rsvqa - hr] (test2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
[RSVQA - lr][rsvqa - lr] | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
[RefCOCO][refcoco] (testA) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
[RefCOCO][refcoco] (testB) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
[RefCOCO][refcoco] (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
[RefCOCO+][refcoco +] (testA) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
[RefCOCO+][refcoco +] (testB) | 64.2 | 68.4 | 67.1 | 67.0 | 71.1 | 68.6 |
[RefCOCO+][refcoco +] (val) | 68.6 | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
[RefCOCOg][refcocog] (test) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
[RefCOCOg][refcocog] (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
[ST - VQA][st - vqa] (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | 81.8 |
[SciCap][scicap] | 165.1 | 159.5 | 156.9 | 183.3 | 177.2 | 172.7 |
[ScienceQA][scienceqa] | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
[Screen2Words][screen2words] | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
[TallyQA][tallyqa] (complex) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
[TallyQA][tallyqa] (simple) | 81.8 | 83.2 | 83.4 | 85.3 | 86.2 | 85.7 |
[TextCaps][textcaps] | 127.5 | 137.9 | 139.9 | 152.1 | 157.7 | 153.6 |
[TextVQA][textvqa] (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
[VATEX][vatex] | 80.8 | 82.7 | - | - | - | - |
[VQAv2][vqav2] (minival) | 83.0 | 84.3 | 84.5 | 84.8 | 85.8 | 85.8 |
[VizWizVQA][vizwiz - vqa] (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
[WidgetCap][widgetcap] | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148.9 |
[XM3600][xm3600] (avg35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
[XM3600][xm3600] (en) | 79.8 | 80.7 | 81.0 | 80.3 | 81.5 | 81.0 |
[xGQA][xgqa] (avg7) | 58.6 | 61.4 | 61.1 | 60.4 | 62.6 | 62.1 |
その他のベンチマーク
[ICDAR 2015 Incidental][icdar2015 - inc]
モデル | 精度 | 再現率 | F1値 |
---|---|---|---|
PaliGemma 2 3B | 81.88 | 70.73 | 75.9 |
[Total - Text][total - text]
モデル | 精度 | 再現率 | F1値 |
---|---|---|---|
PaliGemma 2 3B | 73.8 | 74.54 | 74.17 |
[FinTabNet][fintabnet]
モデル | S - TEDS | TEDS | GriTS - Top | GriTS - Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | 98.94 | 99.43 | 99.21 |
[PubTabNet][pubtabnet]
モデル | S - TEDS | TEDS | GriTS - Top | GriTS - Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97.31 | 97.99 | 97.84 |
[GrandStaff][grandstaff]
モデル | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1.6 | 6.7 | 2.3 |
[PubChem][pubchem]
- PaliGemma 2 3B、完全一致:94.8
[DOCCI][docci]
モデル | 平均文字数 | 平均文章数 | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | 7.74 | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- avg#char:平均文字数
- avg#sent:平均文章数
- NES:非含意文章
[MIMIC - CXR][mimic - cxr]
モデル | CIDEr | BLEU4 | Rouge - L | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9% | 14.6% | 31.92% | 28.8% |
PaliGemma 2 10B | 17.4% | 15% | 32.41% | 29.5% |
[Visual Spatial Reasoning][vsr]
モデル | VSRゼロショット分割 (テスト) | VSRランダム分割 (テスト) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
🛡️ 倫理とセキュリティ
評価方法
私たちの評価方法には、子どもの安全、コンテンツの安全、表現の危険性など、関連するコンテンツポリシーにまたがる構造化された倫理とセキュリティ評価が含まれています。
- 子どもの安全、コンテンツの安全、表現の危険性をカバーするプロンプトに対する人為的な評価。評価方法の詳細については、Gemmaモデルカードを参照してくださいが、画像の字幕作成と視覚的な質問応答の設定を採用しています。
- 画像からテキストへのベンチマーク評価:関連する学術データセット(FairFaceデータセット(Karkkainenら、2021)など)に対するベンチマークテスト。
評価結果
- 倫理とセキュリティ評価の人為的な評価結果は、内部ポリシーにおける子どもの安全、コンテンツの安全、表現の危険性などのカテゴリに関する許容可能な閾値の範囲内に収まっています。
- 強力な内部評価に加えて、Perspective API(閾値0.8)を使用して、FairFaceデータセットから取得した画像の生成字幕に含まれる毒性、冒涜、その他の潜在的な問題を測定しています。各知覚される性別、人種、年齢属性のサブグループで観察された最大値と中央値を報告しています。
指標 | 知覚される性別 | 人種 | 年齢グループ | ||||||
---|---|---|---|---|---|---|---|---|---|
モデルサイズ | 3B | 10B | 28B | 3B | 10B | 28B | 3B | 10B | 28B |
最大値 | |||||||||
毒性 | 0.14% | 0.15% | 0.19% | 0.29% | 0.39% | 0.39% | 0.26% | 0.18% | 0.32% |
身份攻撃 | 0.04% | 0.02% | 0.02% | 0.13% | 0.06% | 0.06% | 0.06% | 0.03% | 0.06% |
侮辱 | 0.17% | 0.25% | 0.17% | 0.37% | 0.52% | 0.52% | 0.27% | 0.39% | 0.24% |
脅威 | 0.55% | 0.43% | 0.57% | 0.83% | 0.48% | 0.48% | 0.64% | 0.43% | 0.64% |
冒涜 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
中央値 | |||||||||
毒性 | 0.13% | 0.10% | 0.18% | 0.07% | 0.07% | 0.14% | 0.12% | 0.08% | 0.12% |
身份攻撃 | 0.02% | 0.01% | 0.02% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
侮辱 | 0.15% | 0.23% | 0.14% | 0.14% | 0.17% | 0.13% | 0.09% | 0.18% | 0.16% |
脅威 | 0.35% | 0.27% | 0.41% | 0.28% | 0.19% | 0.42% | 0.27% | 0.31% | 0.40% |
冒涜 | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
📄 使用と制限
想定される用途
オープンな視覚言語モデル(VLM)は、様々な業界や分野で幅広い用途があります。以下はいくつかの可能なアプリケーションシナリオです:
- 画像と動画の理解:画像や動画の字幕、説明、要約を生成する。
- 視覚的な質問応答:画像や動画の内容に関する質問に答える。
- 物体検出と分割:画像や動画内の物体を識別し、分割する。
- テキスト読み取り:画像からテキスト情報を抽出する。
📄 ライセンス
このプロジェクトはgemma
ライセンスを採用しています。








