PaliGemma 2-10b-pt-224オープンソースの視覚言語モデル - 画像とテキストの出力を無料で処理、マルチタスクに対応

Paligemma2 10b Pt 224

Developed by google

PaliGemma 2はビジュアル言語モデル（VLM）で、Gemma 2モデルの能力を組み合わせて、画像とテキストの入力を同時に処理し、テキスト出力を生成することができ、複数の言語をサポートします。画像や短い動画の字幕、ビジュアル質問応答、テキスト閲読、目標検出、目標分割など、さまざまなビジュアル言語タスクに適しています。

画像生成テキスト

Transformers

#マルチモーダルビジュアル言語 #マルチ言語VLM #高精度微調整

Downloads 3,362

Release Time : 11/21/2024

Model Overview

PaliGemma 2はPaliGemmaビジュアル言語モデルの更新バージョンで、Gemma 2モデルの能力を融合しています。SigLIPビジュアルモデルやGemma 2言語モデルなどのオープンコンポーネントに基づいて構築されており、幅広いビジュアル言語タスクで優れた微調整性能を実現することを目的としています。

Model Features

マルチモーダル処理

画像とテキストの入力を同時に処理し、テキスト出力を生成することができます。

多言語サポート

複数の言語をサポートし、異なる地域のユーザーに適しています。

高性能微調整

さまざまなビジュアル言語タスクで優れた微調整性能を実現するように設計されています。

オープンコンポーネント構築

SigLIPビジュアルモデルとGemma 2言語モデルに基づいて構築されており、高度な柔軟性と拡張性を持っています。

Model Capabilities

画像字幕生成

ビジュアル質問応答

テキスト閲読

目標検出

目標分割

多言語処理

Use Cases

画像と動画の理解

画像字幕生成

画像に対して説明的な字幕を生成します。

COCO - 35Lデータセットで、英語字幕のスコアは142.4（100億モデル）です。

短い動画の字幕

短い動画に対して説明的な字幕を生成します。

ActivityNet - CAPデータセットでのスコアは35.9（100億モデル）です。

ビジュアル質問応答

オープン知識ビジュアル質問応答

外部知識が必要なビジュアル質問に回答します。

AOKVQA - DA検証セットでのスコアは68.9（100億モデル）です。

科学的な質問応答

科学関連のビジュアル質問に回答します。

ScienceQAデータセットでの正解率は98.2%（100億モデル）です。

ドキュメント処理

ドキュメント質問応答

ドキュメント画像に基づく質問に回答します。

DocVQA検証セットでのスコアは43.9（224解像度の100億モデル）です。

表の理解

表の画像を解析して理解します。

FinTabNetデータセットでのTEDSスコアは98.94（30億モデル）です。

🚀 PaliGemma 2モデルカード

PaliGemma 2は、視覚言語モデル（VLM）です。このモデルはGemma 2の能力を活用し、画像とテキストの入力を同時に処理し、テキスト出力を生成することができ、複数の言語をサポートしています。このモデルは、画像や短い動画の字幕作成、視覚的な質問応答、テキスト読み取り、物体検出、物体分割など、様々な視覚言語タスクに適しています。

🚀 クイックスタート

Hugging Face上でPaliGemma 2にアクセスするには、Googleの使用許諾を確認し、同意する必要があります。Hugging Faceにログインしていることを確認し、以下のボタンをクリックしてください。リクエストはすぐに処理されます。 [許諾を確認する](Acknowledge license)

モデルページ：PaliGemma

Transformers PaliGemma 2 10Bの重みは、224*224の入力画像と128トークンの入力/出力テキストシーケンスで事前学習されています。このモデルはbfloat16形式で提供され、微調整に使用できます。

リソースと技術文書：

利用規約：規約

作者：Google

✨ 主な機能

マルチモーダル処理：画像とテキストの入力を同時に処理し、テキスト出力を生成することができます。
多言語対応：複数の言語をサポートしており、世界各地のユーザーに適しています。
高性能微調整：様々な視覚言語タスクで優れた微調整性能を発揮するように設計されています。

💻 使用例

基本的な使用法

from transformers import (
    PaliGemmaProcessor,
    PaliGemmaForConditionalGeneration,
)
from transformers.image_utils import load_image
import torch

model_id = "google/paligemma2-10b-pt-224"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
image = load_image(url)

model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto").eval()
processor = PaliGemmaProcessor.from_pretrained(model_id)

# 事前学習モデルの場合は、プロンプトを空にする
prompt = ""
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

こちらのノートブックでは、PaliGemma 2の微調整方法が示されています。

📚 ドキュメント

モデル情報

モデルの概要

PaliGemma 2は、PaliGemma視覚言語モデル（VLM）の更新版で、Gemma 2モデルの能力を融合しています。PaliGemmaシリーズのモデルは、PaLI - 3にインスパイアされ、SigLIP視覚モデルやGemma 2言語モデルなどのオープンコンポーネントをベースに構築されています。このモデルは、画像とテキストを入力として受け取り、テキストを出力として生成し、複数の言語をサポートしています。このモデルは、画像や短い動画の字幕作成、視覚的な質問応答、テキスト読み取り、物体検出、物体分割など、幅広い視覚言語タスクで優れた微調整性能を実現することを目的としています。

モデルアーキテクチャ

PaliGemma 2は、TransformerデコーダーとVision Transformer画像エンコーダーで構成されています。テキストデコーダーは、パラメータサイズが2B、9B、27BのGemma 2から初期化されます。画像エンコーダーは、SigLIP - So400m/14から初期化されます。元のPaliGemmaモデルと同様に、PaliGemma 2はPaLI - 3の方法に従って学習されます。

入力と出力

入力：画像とテキスト文字列（画像の字幕プロンプトや質問など）。
出力：入力に基づいて生成されたテキスト（画像の字幕、質問の答え、物体の境界ボックス座標のリスト、分割コードなど）。

引用

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

モデルデータ

事前学習データセット

PaliGemma 2は、以下のデータセットの混合データで事前学習されています：

WebLI：WebLI（Web Language Image）は、公共のウェブを基に構築されたウェブ規模の多言語画像 - テキストデータセットです。視覚的な意味理解、物体の位置特定、視覚的な文脈のテキスト理解、多言語能力など、一般的なモデル能力を獲得するために、さまざまなWebLI分割が使用されています。
CC3M - 35L：ウェブページから選りすぐられた英語の画像 - 代替テキストペア（Sharmaら、2018）。Google Cloud Translation APIを使用して、さらに34の言語に翻訳されています。
VQ²A - CC3M - 35L/VQG - CC3M - 35L：VQ2A - CC3Mのサブセット（Changpinyoら、2022a）で、Google Cloud Translation APIを使用して、CC3M - 35Lと同じ34の言語に翻訳されています。
OpenImages：OpenImagesデータセットを基に、手作業のルールによって生成された検出と物体認識の質問と答え。
WIT：ウィキペディアから収集された画像とテキスト（Srinivasanら、2021）。

データ責任フィルタリング

PaliGemma 2が安全で責任あるデータで学習されるように、WebLIには以下のフィルタリング方法が適用されています：

色情画像フィルタリング：色情的な性質を持つと見なされる画像を削除します。
テキストセキュリティフィルタリング：不安全なテキストとペアになっている画像を識別し、フィルタリングします。不安全なテキストには、児童性虐待画像（CSAI）、色情コンテンツ、下品な言葉、その他の不快な内容を含むまたは関連するテキストが含まれます。
テキスト毒性フィルタリング：Perspective APIを使用して、侮辱的、猥褻的、憎悪的、またはその他の毒性のあると見なされるテキストとペアになっている画像を識別し、フィルタリングします。
テキスト個人情報フィルタリング：Cloud Data Loss Prevention (DLP) APIを使用して、特定の個人情報やその他の敏感なデータをフィルタリングし、個人情報を保護します。社会保障番号や[その他の敏感な情報タイプ]などの識別子が削除されます。
その他の方法：コンテンツの品質と安全性に基づき、当社のポリシーと実践に従ってフィルタリングします。

🔧 技術詳細

ハードウェア

PaliGemma 2は、最新世代のテンソル処理ユニット（TPU）ハードウェア（TPUv5e）を使用して学習されています。

ソフトウェア

学習には、JAX、Flax、TFDS、big_visionが使用されています。 JAXにより、研究人員は最新世代のハードウェア（TPUを含む）を利用して、より高速で効率的な大規模モデルの学習を行うことができます。TFDSはデータセットへのアクセスに、Flaxはモデルアーキテクチャに使用されます。PaliGemma 2の微調整コードと推論コードは、big_visionのGitHubリポジトリで公開されています。

📊 評価情報

ベンチマークテスト結果

PaliGemma 2の様々な学術タスクへの移行可能性を検証するために、各タスクで事前学習モデルを微調整しました。より高い解像度がどのタスクに有益かを理解するために、異なる解像度での結果を報告しています。重要なことは、これらのタスクやデータセットは事前学習データの混合に含まれておらず、その画像はウェブ規模の事前学習データから明示的に除外されているということです。

PaliGemma 2のモデル解像度とサイズ別の結果

ベンチマーク	224 - 3B	224 - 10B	224 - 28B	448 - 3B	448 - 10B	448 - 28B
[AI2D][ai2d]	74.7	83.1	83.2	76.0	84.4	84.6
[AOKVQA - DA][aokvqa - da] (val)	64.2	68.9	70.2	67.9	70.8	71.2
[AOKVQA - MC][aokvqa - mc] (val)	79.7	83.7	84.7	82.5	85.9	87.0
[ActivityNet - CAP][anet - cap]	34.2	35.9	-	-	-	-
[ActivityNet - QA][anet - qa]	51.3	53.2	-	-	-	-
[COCO - 35L][coco - 35l] (avg34)	113.9	115.8	116.5	115.8	117.2	117.2
[COCO - 35L][coco - 35l] (en)	138.4	140.8	142.4	140.4	142.4	142.3
[COCOcap][coco - cap]	141.3	143.7	144.0	143.4	145.0	145.2
[ChartQA][chartqa] (aug)	74.4	74.2	68.9	89.2	90.1	85.1
[ChartQA][chartqa] (human)	42.0	48.4	46.8	54.0	66.4	61.3
[CountBenchQA][countbenchqa]	81.0	84.0	86.4	82.0	85.3	87.4
[DocVQA][docvqa] (val)	39.9	43.9	44.9	73.6	76.6	76.1
[GQA][gqa]	66.2	67.2	67.3	68.1	68.3	68.3
[InfoVQA][info - vqa] (val)	25.2	33.6	36.4	37.5	47.8	46.7
[MARVL][marvl] (avg5)	83.5	89.5	90.6	82.7	89.1	89.7
[MSRVTT - CAP][msrvtt]	68.5	72.1	-	-	-	-
[MSRVTT - QA][msrvtt]	50.5	51.9	-	-	-	-
[MSVD - QA][msvd - qa]	61.1	62.5	-	-	-	-
[NLVR2][nlvr2]	91.4	93.9	94.2	91.6	93.7	94.1
[NoCaps][nocaps]	123.1	126.3	127.1	123.5	126.9	127.0
[OCR - VQA][ocr - vqa]	73.4	74.7	75.3	75.7	76.3	76.6
[OKVQA][okvqa]	64.2	68.0	71.2	64.1	68.6	70.6
[RSVQA - hr][rsvqa - hr] (test)	92.7	92.6	92.7	92.8	92.8	92.8
[RSVQA - hr][rsvqa - hr] (test2)	90.9	90.8	90.9	90.7	90.7	90.8
[RSVQA - lr][rsvqa - lr]	93.0	92.8	93.5	92.7	93.1	93.7
[RefCOCO][refcoco] (testA)	75.7	77.2	76.8	78.6	79.7	79.3
[RefCOCO][refcoco] (testB)	71.0	74.2	73.9	73.5	76.2	74.8
[RefCOCO][refcoco] (val)	73.4	75.9	75.0	76.3	78.2	77.3
[RefCOCO+][refcoco +] (testA)	72.7	74.7	73.6	76.1	77.7	76.6
[RefCOCO+][refcoco +] (testB)	64.2	68.4	67.1	67.0	71.1	68.6
[RefCOCO+][refcoco +] (val)	68.6	72.0	70.3	72.1	74.4	72.8
[RefCOCOg][refcocog] (test)	69.0	71.9	70.7	72.7	74.8	73.7
[RefCOCOg][refcocog] (val)	68.3	71.4	70.5	72.3	74.4	73.0
[ST - VQA][st - vqa] (val)	61.9	64.3	65.1	80.5	82.0	81.8
[SciCap][scicap]	165.1	159.5	156.9	183.3	177.2	172.7
[ScienceQA][scienceqa]	96.1	98.2	98.2	96.2	98.5	98.6
[Screen2Words][screen2words]	113.3	117.8	122.8	114.0	119.1	123.4
[TallyQA][tallyqa] (complex)	70.3	73.4	74.2	73.6	76.7	76.8
[TallyQA][tallyqa] (simple)	81.8	83.2	83.4	85.3	86.2	85.7
[TextCaps][textcaps]	127.5	137.9	139.9	152.1	157.7	153.6
[TextVQA][textvqa] (val)	59.6	64.0	64.7	75.2	76.6	76.2
[VATEX][vatex]	80.8	82.7	-	-	-	-
[VQAv2][vqav2] (minival)	83.0	84.3	84.5	84.8	85.8	85.8
[VizWizVQA][vizwiz - vqa] (val)	76.4	78.1	78.7	77.5	78.6	78.9
[WidgetCap][widgetcap]	138.1	139.8	138.8	151.4	151.9	148.9
[XM3600][xm3600] (avg35)	42.8	44.5	45.2	43.2	44.6	45.2
[XM3600][xm3600] (en)	79.8	80.7	81.0	80.3	81.5	81.0
[xGQA][xgqa] (avg7)	58.6	61.4	61.1	60.4	62.6	62.1

その他のベンチマーク

[ICDAR 2015 Incidental][icdar2015 - inc]

モデル	精度	再現率	F1値
PaliGemma 2 3B	81.88	70.73	75.9

[Total - Text][total - text]

モデル	精度	再現率	F1値
PaliGemma 2 3B	73.8	74.54	74.17

[FinTabNet][fintabnet]

モデル	S - TEDS	TEDS	GriTS - Top	GriTS - Con
PaliGemma 2 3B	99.18	98.94	99.43	99.21

[PubTabNet][pubtabnet]

モデル	S - TEDS	TEDS	GriTS - Top	GriTS - Con
PaliGemma 2 3B	97.6	97.31	97.99	97.84

[GrandStaff][grandstaff]

モデル	CER	LER	SER
PaliGemma 2 3B	1.6	6.7	2.3

[PubChem][pubchem]

PaliGemma 2 3B、完全一致：94.8

[DOCCI][docci]

モデル	平均文字数	平均文章数	NES %
PaliGemma 2 3B	529	7.74	28.42
PaliGemma 2 10B	521	7.45	20.27

avg#char：平均文字数
avg#sent：平均文章数
NES：非含意文章

[MIMIC - CXR][mimic - cxr]

モデル	CIDEr	BLEU4	Rouge - L	RadGraph F1
PaliGemma 2 3B	19.9%	14.6%	31.92%	28.8%
PaliGemma 2 10B	17.4%	15%	32.41%	29.5%

[Visual Spatial Reasoning][vsr]

モデル	VSRゼロショット分割 (テスト)	VSRランダム分割 (テスト)
PaliGemma 2 3B	0.75	0.82
PaliGemma 2 10B	0.80	0.87

🛡️ 倫理とセキュリティ

評価方法

私たちの評価方法には、子どもの安全、コンテンツの安全、表現の危険性など、関連するコンテンツポリシーにまたがる構造化された倫理とセキュリティ評価が含まれています。

子どもの安全、コンテンツの安全、表現の危険性をカバーするプロンプトに対する人為的な評価。評価方法の詳細については、Gemmaモデルカードを参照してくださいが、画像の字幕作成と視覚的な質問応答の設定を採用しています。
画像からテキストへのベンチマーク評価：関連する学術データセット（FairFaceデータセット（Karkkainenら、2021）など）に対するベンチマークテスト。

評価結果

倫理とセキュリティ評価の人為的な評価結果は、内部ポリシーにおける子どもの安全、コンテンツの安全、表現の危険性などのカテゴリに関する許容可能な閾値の範囲内に収まっています。
強力な内部評価に加えて、Perspective API（閾値0.8）を使用して、FairFaceデータセットから取得した画像の生成字幕に含まれる毒性、冒涜、その他の潜在的な問題を測定しています。各知覚される性別、人種、年齢属性のサブグループで観察された最大値と中央値を報告しています。

指標	知覚される性別			人種			年齢グループ
モデルサイズ	3B	10B	28B	3B	10B	28B	3B	10B	28B
最大値
毒性	0.14%	0.15%	0.19%	0.29%	0.39%	0.39%	0.26%	0.18%	0.32%
身份攻撃	0.04%	0.02%	0.02%	0.13%	0.06%	0.06%	0.06%	0.03%	0.06%
侮辱	0.17%	0.25%	0.17%	0.37%	0.52%	0.52%	0.27%	0.39%	0.24%
脅威	0.55%	0.43%	0.57%	0.83%	0.48%	0.48%	0.64%	0.43%	0.64%
冒涜	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
中央値
毒性	0.13%	0.10%	0.18%	0.07%	0.07%	0.14%	0.12%	0.08%	0.12%
身份攻撃	0.02%	0.01%	0.02%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
侮辱	0.15%	0.23%	0.14%	0.14%	0.17%	0.13%	0.09%	0.18%	0.16%
脅威	0.35%	0.27%	0.41%	0.28%	0.19%	0.42%	0.27%	0.31%	0.40%
冒涜	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%