PaliGemmaオープンソース視覚言語モデル - 画像とテキストの入力を組み合わせ、多言語出力、多種タスクで優れたパフォーマンスを発揮

ホーム

Paligemma 3b Ft Widgetcap 224

googleによって開発

PaliGemmaは、画像とテキストの入力を組み合わせてテキスト出力を生成する、多機能な軽量ビジュアル言語モデルです。多言語をサポートし、さまざまなビジュアル言語タスクで優れた性能を発揮します。

画像生成テキスト

Transformers

#マルチモーダルビジュアル言語 #軽量ファインチューニング #多言語対応

ダウンロード数 135

リリース時間 : 5/13/2024

モデル概要

PaliGemmaは、オープンコンポーネントを基に構築されたビジュアル言語モデルで、画像キャプション、ビジュアル質問応答、テキスト読み取り、物体検出とセグメンテーションなど、さまざまなタスクを処理することができます。

モデル特徴

多機能性

画像や短い動画のキャプション、ビジュアル質問応答、テキスト読み取り、物体検出と物体セグメンテーションなど、さまざまなビジュアル言語タスクを処理することができます。

軽量性

オープンコンポーネントを基に構築されており、効率的な性能を備えています。

多言語対応

複数の言語の入力と出力をサポートしています。

モデル能力

画像キャプション生成

ビジュアル質問応答

テキスト読み取り

物体検出

物体セグメンテーション

使用事例

画像理解

画像キャプション生成

画像に対して記述的なキャプションを生成し、複数の言語をサポートします。

高品質の多言語画像記述

ビジュアル質問応答

画像の内容に関する自然言語の質問に回答します。

正確な質問回答

物体検出とセグメンテーション

物体検出

画像内の物体を検出し、バウンディングボックスの座標を返します。

正確な物体位置特定

物体セグメンテーション

画像内の物体をピクセルレベルでセグメント化します。

細かい物体セグメンテーション

🚀 PaliGemmaモデルカード

PaliGemmaは、画像とテキストの入力を組み合わせてテキスト出力を生成する、多機能で軽量な視覚言語モデルです。多言語に対応しており、画像キャプション、視覚的質問応答などのさまざまな視覚言語タスクで優れた性能を発揮します。その重みは研究目的に適するように微調整されています。

🚀 クイックスタート

アクセス権限

Hugging Face上でPaliGemmaにアクセスするには、Googleの使用許諾を確認して同意する必要があります。Hugging Faceにログインしてから、以下のボタンをクリックしてください。リクエストはすぐに処理されます。 [許諾を確認](javascript:void(0))

モデルページ

PaliGemma

モデル概要

Transformers PaliGemma 3Bの重みは、Widget_Captioningデータセットで224*224の入力画像を使用して微調整されています。モデルはfloat32、bfloat16、float16の形式で提供され、研究目的のみで使用できます。微調整の設定は、big_visionで見つけることができます。

リソースと技術ドキュメント

使用条件

条件

作者

Google

✨ 主な機能

多機能性：画像や短い動画のキャプション、視覚的質問応答、テキスト読み取り、物体検出、物体セグメンテーションなど、さまざまな視覚言語タスクを処理できます。
軽量性：オープンコンポーネントをベースに構築されており、効率的なパフォーマンスを備えています。
多言語対応：複数の言語の入力と出力をサポートしています。

📦 インストール

4ビット/8ビット精度で自動的に推論を実行するには、bitsandbytesをインストールする必要があります。

pip install bitsandbytes accelerate

💻 使用例

基本的な使用法

PaliGemmaは単輪の視覚言語モデルであり、対話シナリオには適していません。特定のユースケースに合わせて微調整すると最適な結果が得られます。「detect」や「segment」などのタスクプレフィックスを使用して、モデルが解決するタスクを設定できます。事前学習モデルは、このような方法でトレーニングされ、豊富な機能（質問応答、キャプション生成、セグメンテーションなど）を備えています。ただし、直接使用するように設計されているわけではなく、類似したプロンプト構造を使用する特定のタスクに微調整して移行することを想定しています。対話的なテストには、複数のタスクで微調整された「mix」シリーズのモデルを使用できます。

以下は、CPUでデフォルトの精度（float32）で実行する例です。

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(model_id).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語でキャプションを生成するよう指示する
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt")
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

高度な使用法

CUDAで他の精度で実行する

利便性のために、リポジトリにはbfloat16とfloat16に変換された重みのバージョンが含まれています。これらを使用すると、ダウンロードサイズを減らし、ローカルコンピュータでの型変換を回避できます。以下は、NVIDIA CUDAカードでbfloat16で実行する例です。

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=dtype,
    device_map=device,
    revision="bfloat16",
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語でキャプションを生成するよう指示する
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

4ビット/8ビットでモデルをロードする

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch
from transformers import BitsAndBytesConfig

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id, quantization_config=quantization_config
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語でキャプションを生成するよう指示する
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

📚 ドキュメント

モデル情報

モデル概要

説明：PaliGemmaはPaLI-3にインスパイアされ、SigLIP視覚モデルやGemma言語モデルなどのオープンコンポーネントをベースに構築されています。画像とテキストを入力として受け取り、テキスト出力を生成します。
モデルアーキテクチャ：Transformerデコーダと視覚Transformer画像エンコーダで構成され、合計30億個のパラメータを持っています。テキストデコーダはGemma-2Bから初期化され、画像エンコーダはSigLIP-So400m/14から初期化されます。
入力と出力：
- 入力：画像とテキスト文字列（画像のキャプション生成のプロンプトや質問など）。
- 出力：入力に対する生成されたテキスト応答（画像キャプション、質問の答え、物体の境界ボックス座標のリスト、またはセグメンテーションコードワードなど）。

モデルデータ

事前学習データセット：
- WebLI：WebLI (Web Language Image)は、公共のWebをベースに構築されたWeb規模の多言語画像テキストデータセットです。一般的なモデル能力を得るために、複数のWebLI分割を使用しています。
- CC3M-35L：ウェブページから精心に選択された英語の画像 - 代替テキストペア (Sharma et al., 2018) が、Google Cloud Translation API を使用してさらに34の言語に翻訳されています。
- VQ²A-CC3M-35L/VQG-CC3M-35L：VQ2A-CC3Mのサブセット (Changpinyo et al., 2022a) が、Google Cloud Translation API を使用してCC3M-35Lと同じ34の言語に翻訳されています。
- OpenImages：OpenImagesデータセットをベースに、手動ルールによって生成された検出と物体感知質問応答 (Piergiovanni et al. 2022)。
- WIT：ウィキペディアから収集された画像とテキスト (Srinivasan et al., 2021)。
データ責任フィルタリング：PaliGemmaをクリーンなデータでトレーニングするために、WebLIに以下のフィルタリングを適用しています。
- 色情画像フィルタリング：色情的な性質を持つと見なされる画像を削除します。
- テキストセキュリティフィルタリング：不安全なテキストとペアになっている画像を識別してフィルタリングします。不安全なテキストとは、児童性虐待材料、色情コンテンツ、下品な言葉、またはその他の不快なコンテンツを含む、または関連すると見なされる任意のテキストを指します。
- テキスト毒性フィルタリング：Perspective API を使用して、侮辱的、猥褻的、憎悪的、またはその他の毒性があると見なされるテキストとペアになっている画像を識別してフィルタリングします。
- テキスト個人情報フィルタリング：Cloud Data Loss Prevention (DLP) API を使用して、特定の個人情報やその他の機密データをフィルタリングし、個人情報を保護します。社会保障番号などの識別子やその他の機密情報タイプが削除されます。
- その他の方法：コンテンツの品質と安全性に基づいてフィルタリングし、当社のポリシーと実践に合致させます。

🔧 技術詳細

ハードウェア

PaliGemmaは最新世代のテンソル処理ユニット（TPU）ハードウェア（TPUv5e）を使用してトレーニングされています。

ソフトウェア

JAX、Flax、TFDS、およびbig_vision を使用してトレーニングされています。JAXにより、研究者は最新世代のハードウェア（TPUを含む）を利用して、より高速で効率的な大規模モデルのトレーニングが可能になります。TFDSはデータセットにアクセスするために使用され、Flaxはモデルアーキテクチャに使用されます。PaliGemmaの微調整コードと推論コードは、big_visionのGitHubリポジトリで公開されています。

📄 ライセンス

このモデルはgemmaライセンス契約に従います。

🔧 評価情報

ベンチマーク結果

PaliGemmaのさまざまな学術タスクへの移行可能性を検証するために、各タスクで事前学習モデルを微調整しました。さらに、移行タスクの混合を使用して混合モデルをトレーニングしました。より高い解像度がどのタスクに有益かを理解するために、異なる解像度での結果を報告しています。重要なことは、これらのタスクとデータセットは事前学習データの混合に含まれておらず、それらの画像はWeb規模の事前学習データから明確に除外されているということです。