Paligemma - 3b - ft - cococap - 224オープンソースビジュアル言語モデル - 多言語対応、多様なビジュアル言語タスクに適用可能

ホーム

Paligemma 3b Ft Cococap 224

googleによって開発

PaliGemmaは、多言語の入出力をサポートする、多機能な軽量級ビジュアル言語モデル（VLM）です。様々なビジュアル言語タスクに適しています。

画像生成テキスト

Transformers

#マルチモーダルビジュアル言語 #軽量級VLM #多言語字幕生成

ダウンロード数 209

リリース時間 : 5/13/2024

モデル概要

PaliGemmaは、オープンコンポーネントを基に構築され、SigLIPビジュアルモデルとGemma言語モデルを組み合わせています。画像や短い動画の字幕生成、ビジュアル質問応答、テキスト読み取り、目標検出と分割などのタスクを処理することができます。

モデル特徴

多機能性

質問応答、字幕生成、分割など、様々なビジュアル言語タスクを処理することができます。

多言語サポート

複数の言語の入力と出力をサポートします。

軽量級設計

モデルのパラメータが比較的少なく、様々なデバイスでの研究やアプリケーションが容易です。

モデル能力

画像字幕生成

ビジュアル質問応答

テキスト読み取り

目標検出

目標分割

使用事例

マルチメディア処理

画像字幕生成

画像や短い動画に多言語の字幕を生成します。

画像の内容を正確に記述した字幕を生成します

ビジュアル質問応答

画像の内容に関する自然言語の質問に答えます。

正確な質問の答えを提供します

コンピュータビジョン

目標検出

画像内の目標を検出し、バウンディングボックスの座標を出力します。

画像内の目標を正確に識別して位置を特定します

目標分割

画像内の目標をピクセルレベルで分割します。

正確な目標分割マスクを生成します

🚀 PaliGemmaモデルカード

PaliGemmaは、画像とテキストを入力として受け取り、テキスト出力を生成する多言語対応の軽量型ビジュアル言語モデル（VLM）です。このモデルは、画像や短い動画の字幕作成、ビジュアル質問応答、テキスト読み取り、物体検出、物体セグメンテーションなど、様々なビジュアル言語タスクに適しています。

🚀 クイックスタート

Hugging Face上でPaliGemmaモデルを使用するには、Googleの使用許諾を確認して同意する必要があります。Hugging Faceにログインしていることを確認し、以下のボタンをクリックすると、リクエストがすぐに処理されます。 [許諾を確認](javascript:void(0))

✨ 主な機能

多機能性：質問応答、字幕生成、セグメンテーションなど、様々なビジュアル言語タスクを処理できます。
多言語対応：複数の言語の入力と出力をサポートします。
軽量設計：モデルのパラメータが比較的少なく、様々なデバイスでの研究やアプリケーションに適しています。

📦 インストール

4ビットまたは8ビット精度で自動的に推論を実行するには、bitsandbytesをインストールする必要があります。

pip install bitsandbytes accelerate

💻 使用例

基本的な使用法

CPU上でデフォルトの精度（float32）で実行する例です。

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(model_id).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語で字幕を作成するよう指示
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt")
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

高度な使用法

CUDA上で他の精度で実行する

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=dtype,
    device_map=device,
    revision="bfloat16",
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語で字幕を作成するよう指示
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

4ビット/8ビットでロードする

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
import torch
from transformers import BitsAndBytesConfig

model_id = "google/paligemma-3b-mix-224"
device = "cuda:0"
dtype = torch.bfloat16

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id, quantization_config=quantization_config
).eval()
processor = AutoProcessor.from_pretrained(model_id)

# モデルにスペイン語で字幕を作成するよう指示
prompt = "caption es"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

📚 ドキュメント

モデル情報

モデル概要

PaliGemmaはPaLI - 3にインスパイアされ、SigLIPビジュアルモデルやGemma言語モデルなどのオープンコンポーネントに基づいて構築されています。このモデルはTransformerデコーダーとビジュアルTransformer画像エンコーダーで構成され、合計30億個のパラメータを持っています。

入力：画像とテキスト文字列（画像の字幕付けのプロンプトや質問など）
出力：入力に対して生成されたテキスト（画像の字幕、質問の回答、物体のバウンディングボックス座標のリスト、セグメンテーションコードなど）

モデルデータ

事前学習データセット：PaliGemmaはWebLI、CC3M - 35L、VQ²A - CC3M - 35L/VQG - CC3M - 35L、OpenImages、WITなどの複数のデータセットの混合で事前学習されています。
データ責任フィルタリング：クリーンなデータでモデルを学習させるために、WebLIには色情画像フィルタリング、テキストセキュリティフィルタリング、テキスト毒性フィルタリング、テキスト個人情報フィルタリングなど、さまざまなフィルタリング方法が適用されています。

使用方法

PaliGemmaは単輪のビジュアル言語モデルであり、対話シナリオには適していません。「detect」や「segment」などのタスクプレフィックスを使用することで、モデルが解決するタスクを設定できます。事前学習モデルは複数の能力を持つように学習されていますが、通常は特定のタスクに移行するために微調整が必要です。対話的なテストには、複数のタスクに対して微調整された「mix」シリーズのモデルを使用できます。