PaliGemma 3B FT Scicap 224オープンソース軽量級ビジュアル言語モデル - 多言語の画像とテキスト情報出力をサポート

ホーム

Paligemma 3b Ft Scicap 224

googleによって開発

PaliGemmaは軽量級のビジュアル言語モデルで、画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語と多タスク処理をサポートします。

画像生成テキスト

Transformers

#マルチモーダルビジュアル言語 #多言語対応 #軽量級VLM

ダウンロード数 107

リリース時間 : 5/12/2024

モデル概要

PaliGemmaはPaLI - 3にインスピレーションを受けた多機能なビジュアル言語モデルで、オープンコンポーネントに基づいて構築され、画像キャプション、ビジュアル質問応答、テキスト読み取り、物体検出とセグメンテーションなどのさまざまなタスクに適しています。

モデル特徴

マルチモーダル入力

画像とテキストの入力を同時に処理し、テキスト出力を生成することをサポートします。

多言語対応

複数の言語の入力と出力を処理でき、国際化されたアプリケーションシナリオに適しています。

軽量級設計

オープンコンポーネントに基づいて構築され、パラメータ規模が適度で、リソースが限られた環境に適しています。

多機能タスク処理

質問応答、キャプション生成、セグメンテーションなどのさまざまなビジュアル言語タスクをサポートします。

モデル能力

画像キャプション生成

ビジュアル質問応答

物体検出

物体セグメンテーション

多言語テキスト生成

使用事例

画像理解

画像キャプション生成

画像に対して記述的なキャプションを生成し、複数の言語をサポートします。

画像内容に合った正確なキャプションを生成します。

ビジュアル質問応答

画像内容に関する自然言語の質問に回答します。

正確で関連性のある回答を提供します。

物体検出とセグメンテーション

物体検出

画像中の物体を識別し、そのバウンディングボックスの座標を返します。

正確な物体の位置特定。

物体セグメンテーション

画像中の物体をピクセルレベルでセグメンテーションします。

正確なセグメンテーションマスクを生成します。

🚀 PaliGemmaモデルカード

PaliGemmaは、PaLI - 3にインスパイアされた軽量な視覚言語モデルです。画像とテキストの入力を組み合わせ、テキストを出力し、多言語をサポートします。このモデルは、画像や短い動画の字幕付け、視覚的質問応答、テキスト読み取り、物体検出、物体分割など、さまざまな視覚言語タスクに適用できます。

モデル情報リンク

モデルページ：PaliGemma
リソースと技術ドキュメント：
使用条項：Terms
作者：Google

✨ 主な機能

マルチモーダル入力：画像とテキストを入力として受け付け、テキストを出力し、さまざまな視覚言語タスクに適しています。
多言語サポート：複数の言語の入力と出力を処理できます。
豊富な機能：質問応答、字幕生成、分割など、様々な機能を備えています。

📦 インストール

8ビットまたは4ビット精度で自動的に推論を実行するには、bitsandbytesをインストールする必要があります。

pip install bitsandbytes accelerate

💻 使用例

基本的な使用法

CPU上でデフォルト精度（float32）で実行するには、次のようにします。

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(model_id).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語で字幕を作成するよう指示
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt")
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

高度な使用法

CUDA上で他の精度（`bfloat16`を例に）で実行する

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=dtype,
    device_map=device,
    revision="bfloat16",
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語で字幕を作成するよう指示
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

4ビット/8ビットでモデルをロードする

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch
from transformers import BitsAndBytesConfig

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id, quantization_config=quantization_config
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語で字幕を作成するよう指示
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

📚 ドキュメント

モデル情報

モデル概要

PaliGemmaは、PaLI - 3にインスパイアされた、多機能で軽量な視覚言語モデル（VLM）です。SigLIP視覚モデルやGemma言語モデルなどのオープンコンポーネントを基に構築されています。画像とテキストを同時に入力として受け付け、テキスト出力を生成し、複数の言語をサポートします。このモデルは、幅広い視覚言語タスクで一流の微調整性能を実現することを目的としています。

モデルアーキテクチャ

PaliGemmaは、TransformerデコーダーとVision Transformer画像エンコーダーで構成され、合計30億個のパラメータを持っています。テキストデコーダーはGemma - 2Bから初期化され、画像エンコーダーはSigLIP - So400m/14から初期化されます。PaliGemmaはPaLI - 3の方法に従って訓練されています。

入力と出力

入力：画像とテキスト文字列、例えば画像に字幕を付けるためのプロンプトや質問など。
出力：入力に対して生成されたテキスト、例えば画像の字幕、質問の答え、物体の境界ボックス座標のリストまたは分割コードワードなど。

モデルデータ

事前学習データセット

PaliGemmaは、以下のデータセットの混合で事前学習されています。

WebLI：WebLI (Web Language Image)は、公共のウェブから構築されたウェブ規模の多言語画像 - テキストデータセットです。視覚的な意味理解、物体の位置特定、視覚的な状況のテキスト理解、多言語能力など、一般的なモデル能力を得るために、さまざまなWebLI分割が使用されています。
CC3M - 35L：ウェブページから精心選択された英語の画像 - 代替テキストペア（Sharma et al., 2018）。Google Cloud Translation APIを使用して、さらに34の言語に翻訳されています。
VQ²A - CC3M - 35L/VQG - CC3M - 35L：VQ2A - CC3Mのサブセット（Changpinyo et al., 2022a）で、Google Cloud Translation APIを使用して、CC3M - 35Lと同じ34の言語に翻訳されています。
OpenImages：OpenImagesデータセット上で手動ルールによって生成された検出と物体感知の質問と回答（Piergiovanni et al. 2022）。
WIT：ウィキペディアから収集された画像とテキスト（Srinivasan et al., 2021）。

データ責任フィルタリング

PaliGemmaをクリーンなデータで訓練するために、WebLIには以下のフィルタリングが適用されています。

色情画像フィルタリング：このフィルターは、色情的な性質を持つと見なされる画像を削除します。
テキストセキュリティフィルタリング：不安全なテキストとペアになっている画像を識別し、フィルタリングします。不安全なテキストとは、児童性虐待材料、色情コンテンツ、下品な言葉、またはその他の不快な内容を含む、または関連すると見なされるテキストのことです。
テキスト毒性フィルタリング：Perspective APIをさらに使用して、侮辱的、猥褻的、憎悪的、またはその他の毒性のあると見なされるテキストとペアになっている画像を識別し、フィルタリングします。
テキスト個人情報フィルタリング：Cloud Data Loss Prevention (DLP) APIを使用して、特定の個人情報やその他の敏感なデータをフィルタリングし、個人のプライバシーを保護します。社会保障番号などの識別子やその他の敏感な情報タイプが削除されています。
その他の方法：コンテンツの品質と安全性に基づいてフィルタリングし、当社のポリシーと実践に合致させます。

使い方

PaliGemmaは単輪の視覚言語モデルであり、対話型の使用には適しておらず、特定のユースケースに合わせて微調整すると最適な結果が得られます。

「detect」や「segment」などのタスクプレフィックスを使用することで、モデルが解決するタスクを構成できます。事前学習モデルは、このような方法で訓練され、豊富な機能（質問応答、字幕生成、分割など）を備えています。ただし、直接使用するために設計されているわけではなく、類似したプロンプト構造を使用する特定のタスクに微調整を通じて転用されます。対話型のテストには、複数のタスクの混合で微調整された「mix」シリーズのモデルを使用できます。

使用と制限のセクションを参照して、想定されるユースケースを確認するか、ブログ記事を参照して、詳細と例を確認してください。

実装情報

ハードウェア

PaliGemmaは、最新世代のテンソル処理ユニット（TPU）ハードウェア（TPUv5e）を使用して訓練されています。

ソフトウェア

訓練には、JAX、Flax、TFDS、およびbig_visionが使用されています。

JAXにより、研究者は最新世代のハードウェア（TPUを含む）を利用して、大型モデルをより高速かつ効率的に訓練できます。TFDSはデータセットへのアクセスに使用され、Flaxはモデルアーキテクチャに使用されます。PaliGemmaの微調整コードと推論コードは、big_visionのGitHubリポジトリで公開されています。

評価情報

ベンチマーク結果

PaliGemmaのさまざまな学術タスクへの転用可能性を検証するために、各タスクで事前学習モデルを微調整しました。さらに、複数の転用タスクの混合を使用して混合モデルを訓練しました。解像度を上げることでどのタスクが恩恵を受けるかを理解するために、異なる解像度での結果を報告しています。重要なことは、これらのタスクとデータセットは事前学習データの混合に含まれておらず、それらの画像はウェブ規模の事前学習データから明示的に除外されているということです。