PaliGemmaオープンソース視覚言語モデル - 軽量で多機能、画像とテキストを結合して多言語テキストを出力します

ホーム

Paligemma 3b Ft Vqav2 224

googleによって開発

PaliGemmaは、画像とテキストの入力を組み合わせてテキスト出力を生成する、多機能な軽量ビジュアル言語モデルで、多言語をサポートしています。

テキスト生成画像

Transformers

#マルチモーダルビジュアル言語 #軽量ファインチューニング #多言語対応

ダウンロード数 150

リリース時間 : 5/12/2024

モデル概要

PaliGemmaは、ビジュアル言語タスクのファインチューニング性能を目的として設計されており、画像や短い動画の字幕生成、ビジュアル質問応答、テキスト読み取り、物体検出、物体セグメンテーションなど、さまざまなシーンで使用できます。

モデル特徴

多機能性

画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語をサポートします。

軽量性

オープンコンポーネントを基に構築されており、使用とデプロイが容易です。

高性能

質問応答、字幕生成、セグメンテーションなど、さまざまなビジュアル言語タスクで優れた性能を発揮します。

モデル能力

画像字幕生成

ビジュアル質問応答

物体検出

物体セグメンテーション

多言語対応

使用事例

画像処理

画像字幕生成

画像に対して記述的な字幕を生成し、多言語をサポートします。

COCO captions検証セットでCIDEr得点が141.92（224解像度）

物体検出

画像内の物体を検出し、バウンディングボックスの座標を生成します。

質問応答システム

ビジュアル質問応答

画像の内容に関する質問に答えます。

VQAv2テストセットで精度が83.19%（224解像度）

🚀 PaliGemmaモデルカード

PaliGemmaは、画像とテキストの入力を組み合わせてテキスト出力を生成する、多言語対応の軽量型マルチモーダルビジュアル言語モデル（VLM）です。このモデルは、ビジュアル言語タスクの微調整性能を重視して設計されており、画像や短い動画の字幕生成、ビジュアル質問応答、テキスト読み取り、物体検出、物体セグメンテーションなど、様々なシーンで利用できます。

🚀 クイックスタート

PaliGemmaは単輪のビジュアル言語モデルであり、対話シーンには適していません。特定のユースケースに合わせて微調整すると、最適な性能を発揮します。「detect」や「segment」などのタスクプレフィックスを使用することで、モデルが解決するタスクを設定できます。事前学習モデルは、このような方法で訓練されており、質問応答、字幕生成、セグメンテーションなどの幅広い能力を備えていますが、直接使用するのではなく、特定のタスクに微調整して移行することができます。対話的なテストには、「mix」シリーズのモデルを使用することができます。これらのモデルは、複数のタスクの混合データセットで微調整されています。

想定されるユースケースについては、使用と制限のセクションを参照してください。詳細情報やサンプルについては、ブログ記事をご覧ください。

✨ 主な機能

多機能性：画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語をサポートします。
軽量性：オープンコンポーネントをベースに構築されており、使用とデプロイが容易です。
高性能：質問応答、字幕生成、セグメンテーションなど、様々なビジュアル言語タスクで優れた性能を発揮します。

📦 インストール

8ビットまたは4ビット精度で自動的に推論を実行するには、bitsandbytesをインストールする必要があります。

pip install bitsandbytes accelerate

💻 使用例

基本的な使用法

以下のコードは、CPU上でデフォルトの精度（float32）でPaliGemmaモデルを実行する方法を示しています。

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(model_id).eval()
processor = AutoProcessor.from_pretrained(model_id)

# Instruct the model to create a caption in Spanish
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt")
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

出力：Un auto azul estacionado frente a un edificio.

高度な使用法

CUDA上での他の精度での実行

以下のコードは、NVIDIA CUDAカード上でbfloat16精度でモデルを実行する方法を示しています。

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=dtype,
    device_map=device,
    revision="bfloat16",
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# Instruct the model to create a caption in Spanish
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

4ビット/8ビット精度でのモデルの読み込み

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch
from bitsandbytes.nn import BitsAndBytesConfig

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id, quantization_config=quantization_config
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# Instruct the model to create a caption in Spanish
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

📚 ドキュメント

モデル情報

モデル概要

PaliGemmaはPaLI - 3にインスパイアされ、SigLIPビジュアルモデルやGemma言語モデルなどのオープンコンポーネントをベースに構築されています。画像とテキストを入力として受け取り、テキスト出力を生成し、多言語をサポートします。

モデルアーキテクチャ

PaliGemmaはTransformerデコーダーとビジュアルTransformer画像エンコーダーで構成され、合計30億個のパラメータを持っています。テキストデコーダーはGemma - 2Bから初期化され、画像エンコーダーはSigLIP - So400m/14から初期化されます。モデルはPaLI - 3の方法に従って訓練されています。

入力と出力

入力：画像とテキスト文字列（画像のキャプション生成のためのプロンプトや質問など）
出力：入力に基づいて生成されたテキスト（画像のキャプション、質問の回答、物体のバウンディングボックス座標のリスト、またはセグメンテーションコードワードなど）

モデルデータ

事前学習データセット：PaliGemmaは以下の混合データセットで事前学習されています。
- WebLI：WebLI (Web Language Image)は、公共のウェブをベースに構築されたウェブ規模の多言語画像 - テキストデータセットです。様々なWebLI分割を使用して、視覚的な意味理解、物体の位置特定、視覚的な文脈のテキスト理解、多言語能力などの一般的なモデル能力を獲得します。
- CC3M - 35L：ウェブページから選りすぐられた英語の画像 - 代替テキストペア（Sharma et al., 2018）。Google Cloud Translation APIを使用して、さらに34種類の言語に翻訳されています。
- VQ²A - CC3M - 35L/VQG - CC3M - 35L：VQ2A - CC3Mのサブセット（Changpinyo et al., 2022a）。Google Cloud Translation APIを使用して、CC3M - 35Lと同じ34種類の言語に翻訳されています。
- OpenImages：OpenImagesデータセットで手動ルールによって生成された検出と物体感知質問応答（Piergiovanni et al., 2022）。
- WIT：ウィキペディアから収集された画像とテキスト（Srinivasan et al., 2021）。
データ責任フィルタリング：クリーンなデータでPaliGemmaを訓練するために、WebLIに以下のフィルタリングが適用されています。
- 色情画像フィルタリング：色情的な性質を持つと見なされる画像を削除します。
- テキストセキュリティフィルタリング：不安全なテキストとペアになっている画像を識別してフィルタリングします。不安全なテキストとは、児童性虐待材料、色情コンテンツ、下品な言葉、またはその他の不快な内容を含むテキストを指します。
- テキスト毒性フィルタリング：Perspective APIを使用して、侮辱的、猥褻的、憎悪的、またはその他の毒性のあると見なされるテキストとペアになっている画像を識別してフィルタリングします。
- テキスト個人情報フィルタリング：Cloud Data Loss Prevention (DLP) APIを使用して、特定の個人情報やその他の機密データをフィルタリングし、個人情報を保護します。社会保障番号などの識別子やその他の機密情報タイプが削除されます。
- その他の方法：コンテンツの品質と安全性に基づいてフィルタリングし、当社のポリシーと実践に合致させます。

実装情報

ハードウェア

PaliGemmaは最新世代のテンソル処理ユニット（TPU）ハードウェア（TPUv5e）を使用して訓練されています。

ソフトウェア

訓練にはJAX、Flax、TFDS、およびbig_visionが使用されています。JAXにより、研究員は最新世代のハードウェア（TPUを含む）を利用して、大規模なモデルをより高速かつ効率的に訓練することができます。TFDSはデータセットへのアクセスに使用され、Flaxはモデルアーキテクチャに使用されます。PaliGemmaの微調整コードと推論コードは、big_visionのGitHubリポジトリで公開されています。

評価情報

ベンチマークテスト結果

PaliGemmaの様々な学術的タスクへの移行可能性を検証するために、各タスクで事前学習モデルを微調整しました。さらに、移行タスクの混合データセットを使用して混合モデルを訓練しました。より高い解像度がどのタスクに有益であるかを示すために、異なる解像度での結果を報告しています。重要なことは、これらのタスクとデータセットは事前学習データ混合の一部ではなく、それらの画像はウェブ規模の事前学習データから明示的に除外されているということです。

混合モデル（移行タスクの混合データセットで微調整）

ベンチマーク	指標（分割）	mix - 224	mix - 448
MMVP	ペア精度	46.00	45.33
POPE	精度（ランダム/人気/対抗）	88.00 86.63 85.67	89.37 88.40 87.47
GQA	精度（テスト）	65.20	65.47

単一タスク（単一タスクで微調整）

ベンチマーク（訓練分割）	指標（分割）	pt - 224	pt - 448	pt - 896
キャプション生成
COCO captions（train + restval）	CIDEr（検証）	141.92	144.60	-
NoCaps（COCOキャプション移行評価）	CIDEr（検証）	121.72	123.58	-
COCO - 35L（訓練）	CIDEr開発（英語/34言語の平均/平均）	139.2 115.8 116.4	141.2 118.0 118.6	-
XM3600（COCO - 35L移行評価）	CIDEr開発（英語/34言語の平均/平均）	78.1 41.3 42.4	80.0 41.9 42.9	-
TextCaps（訓練）	CIDEr（検証）	127.48	153.94	-
SciCap（最初の文、サブグラフなし）（train + val）	CIDEr/BLEU - 4（テスト）	162.25 0.192	181.49 0.211	-
Screen2words（train + dev）	CIDEr（テスト）	117.57	119.59	-
Widget Captioning（train + dev）	CIDEr（テスト）	136.07	148.36	-
質問応答
VQAv2（train + validation）	精度（テストサーバー - 標準）	83.19	85.64	-
MMVP（VQAv2移行評価）	ペア精度	47.33	45.33	-
POPE（VQAv2移行評価）	精度（ランダム/人気/対抗）	87.80 85.87 84.27	88.23 86.77 85.90	-
OKVQA（訓練）	精度（検証）	63.54	63.15	-
A - OKVQA (MC)（train + val）	精度（テストサーバー）	76.37	76.90	-
A - OKVQA (DA)（train + val）	精度（テストサーバー）	61.85	63.22	-
GQA（train_balanced + val_balanced）	精度（testdevバランス）	65.61	67.03	-
xGQA（GQA移行評価）	平均精度（bn, de, en, id, ko, pt, ru, zh）	58.37	59.07	-
NLVR2（train + dev）	精度（テスト）	90.02	88.93	-
MaRVL（NLVR2移行評価）	平均精度（テスト）（id, sw, ta, tr, zh）	80.57	76.78	-
AI2D（訓練）	精度（テスト）	72.12	73.28	-
ScienceQA（画像サブセット、CoTなし）（train + val）	精度（テスト）	95.39	95.93	-
RSVQA - LR（非数字）（train + val）	平均精度（テスト）	92.65	93.11	-
RSVQA - HR（非数字）（train + val）	平均精度（テスト/test2）	92.61 90.58	92.79 90.54	-
ChartQA（human + aug）x（train + val）	平均緩和精度（test_human, test_aug）	57.08	71.36	-
VizWiz VQA（train + val）	精度（テストサーバー - 標準）	73.7	75.52	-
TallyQA（訓練）	精度（test_simple/test_complex）	81.72 69.56	84.86 72.27	-
OCR - VQA（train + val）	精度（テスト）	72.32	74.61	74.93
TextVQA（train + val）	精度（テストサーバー - 標準）	55.47	73.15	76.48
DocVQA（train + val）	ANLS（テストサーバー）	43.74	78.02	84.77
Infographic VQA（train + val）	ANLS（テストサーバー）	28.46	40.47	47.75
SceneText VQA（train + val）	ANLS（テストサーバー）	63.29	81.82	84.40
セグメンテーション
RefCOCO（組み合わせrefcoco, refcoco +, refcocog、検証とテスト画像を除く）	MIoU（検証）refcoco/refcoco +/refcocog	73.40 68.32 67.65	75.57 69.76 70.17	76.94 72.18 72.22
ビデオタスク（キャプション/質問応答）
MSR - VTT（キャプション）