Google Gemma 3-27b-itオープンソースマルチモーダルモデル - 画像とテキストの入力を無料で処理してテキスト内容を生成

Google Gemma 3 27b It

context-labsによって開発

Gemma 3はGoogleが開発した軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。これはマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。

画像生成テキスト

Transformers

#マルチモーダル理解 #128K長文脈 #多言語対応

ダウンロード数 2,313

リリース時間 : 4/7/2025

モデル概要

Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができ、さまざまなテキスト生成と画像理解タスクに適しています。

モデル特徴

マルチモーダル処理

テキストと画像の入力を同時に処理し、テキスト出力を生成することができます。

大きな文脈ウィンドウ

128Kの大きな文脈ウィンドウを持ち、長いテキストと複雑なタスクの処理に適しています。

多言語対応

140種以上の言語をサポートし、世界中のアプリケーションシナリオに適しています。

低いリソース要件

比較的小さいモデル規模のため、リソースが限られた環境でもデプロイできます。

モデル能力

テキスト生成

画像分析

多言語処理

コード生成

数学的推論

使用事例

コンテンツ作成とコミュニケーション

テキスト生成

詩、脚本、コード、マーケティングコピー、電子メール草稿などのクリエイティブなテキスト形式を生成します。

チャットボットと対話型AI

カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションに対話インターフェイスを提供します。

研究と教育

自然言語処理研究

研究者がVLMとNLP技術を試験し、アルゴリズムを開発し、この分野を発展させるための基盤として利用されます。

言語学習

言語学習者が文法、語彙、読解力などの言語スキルを向上させるのに役立ちます。

🚀 Gemma 3モデルカード

Gemma 3はGoogleが提供する軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。このモデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。様々なテキスト生成や画像理解タスクに適しています。

🚀 クイックスタート

インストール

まず、Transformersライブラリをインストールします。Gemma 3はtransformers 4.50.0バージョンからサポートされています。

$ pip install -U transformers

実行例

`pipeline` APIを使用した実行

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3-27b-it",
    device="cuda",
    torch_dtype=torch.bfloat16
)

指令による微調整が行われたモデルの場合は、入力をチャットテンプレートで処理してからパイプラインに渡す必要があります。

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]

output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look! 
# Based on the image, the animal on the candy is a **turtle**. 
# You can see the shell shape and the head and legs.

単一GPUまたは複数GPUでのモデル実行

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3-27b-it"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.

✨ 主な機能

マルチモーダル処理：テキストと画像の入力を処理し、テキスト出力を生成できます。
大規模コンテキストウィンドウ：128Kの大規模コンテキストウィンドウを持っています。
多言語対応：140種類以上の言語をサポートしています。
複数の規模選択：さまざまな規模のモデルが用意されており、異なるアプリケーションシーンに対応できます。
低リソース要件：比較的小規模なモデルであるため、リソースが限られた環境でもデプロイ可能です。

📦 インストール

Gemma 3モデルを使用するには、まずTransformersライブラリをインストールする必要があります。Gemma 3はtransformers 4.50.0バージョンからサポートされています。

$ pip install -U transformers

💻 使用例

基本的な使用法

pipeline APIを使用して推論を行う例です。

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3-27b-it",
    device="cuda",
    torch_dtype=torch.bfloat16
)

高度な使用法

単一GPUまたは複数GPUでモデルを実行する例です。

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3-27b-it"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.

📚 ドキュメント

モデル情報

概要

GemmaはGoogleが提供する一連の軽量で最先端のオープンモデルで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。事前学習と指令微調整のバリエーションはすべてオープンな重みを持っています。Gemma 3は128Kの大規模コンテキストウィンドウを持ち、140種類以上の言語をサポートし、以前のバージョンよりも多くの規模選択肢を提供しています。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。比較的小規模なため、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境でもデプロイ可能です。これにより、より多くの人が最先端のAIモデルを利用できるようになり、イノベーションが促進されます。

入力と出力

入力：
- 質問、プロンプト、または要約するドキュメントなどのテキスト文字列。
- 896 x 896の解像度に正規化され、それぞれ256個のトークンにエンコードされた画像。
- 4B、12B、27B規模のモデルの総入力コンテキストは128Kトークン、1B規模のモデルは32Kトークン。
出力：
- 入力に対する生成テキスト応答、例えば質問の答え、画像内容の分析、またはドキュメントの要約。
- 総出力コンテキストは8192トークン。

モデルデータ

学習データセット

これらのモデルは、さまざまなソースのテキストデータセットを含むデータセットで学習されています。27Bモデルは14兆トークンで学習され、12Bモデルは12兆トークン、4Bモデルは4兆トークン、1Bモデルは2兆トークンで学習されています。主な構成要素は以下の通りです。

ウェブドキュメント：多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることができます。学習データセットには140種類以上の言語の内容が含まれています。
コード：モデルにコードに触れさせることで、プログラミング言語の構文とパターンを学習し、コード生成やコード関連の問題の理解能力を向上させます。
数学：数学的なテキストで学習することで、モデルは論理的な推論、記号表現、数学的なクエリの解決を学習できます。
画像：幅広い画像を使用することで、モデルは画像分析と視覚データ抽出タスクを実行できます。

データ前処理

学習データには、以下の重要なデータクリーニングとフィルタリング方法が適用されています。

CSAMフィルタリング：データ準備プロセスの複数の段階で、厳格なCSAM（児童性虐待材料）フィルタリングが適用され、有害で違法なコンテンツが排除されます。
敏感データフィルタリング：Gemma事前学習モデルを安全かつ信頼できるものにするための一環として、自動化技術を使用して学習データセットから特定の個人情報やその他の敏感なデータがフィルタリングされます。
その他の方法：コンテンツの品質と安全性に基づいて、当社のポリシーに従ってフィルタリングされます。

実装情報

ハードウェア

Gemmaはテンソル処理ユニット（TPU）ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用して学習されています。視覚言語モデル（VLM）の学習には大量の計算能力が必要です。TPUは機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。

パフォーマンス：TPUはVLMの学習に関わる大量の計算を処理するように設計されています。CPUと比較して、学習を大幅に高速化できます。
メモリ：TPUは通常、大量の高帯域幅メモリを備えており、学習中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質を向上させることができます。
拡張性：TPU Pod（大型TPUクラスター）は、大型の基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供します。複数のTPUデバイスに学習を分散させることで、より高速かつ効率的な処理が可能です。
コスト効率：多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の良いソリューションを提供できます。特に、高速な学習による時間とリソースの節約を考慮すると、その効果が顕著です。
これらの利点は[Googleの持続可能な運用へのコミットメント][sustainability]に合致しています。

ソフトウェア

学習にはJAXとML Pathwaysが使用されています。JAXにより、研究人員はTPUを含む最新世代のハードウェアを活用して、大型モデルをより高速かつ効率的に学習できます。ML Pathwaysは、Googleが複数のタスクにわたって汎化できる人工知能システムを構築するための最新の取り組みです。これは、このような大型言語モデルを含む基礎モデルに特に適しています。JAXとML Pathwaysの組み合わせの使用方法は、Geminiモデルファミリーに関する論文で説明されています：「JaxとPathwaysの'単一コントローラ'プログラミングモデルにより、単一のPythonプロセスで学習実行全体を編成でき、開発ワークフローが大幅に簡素化されます。」

評価

ベンチマークテスト結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、多数の異なるデータセットと指標で評価されています。

推論と事実性

ベンチマーク	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	few-shot	28.4	50.9	72.6	77.7
DROP	1-shot	42.4	60.1	72.2	77.2

STEMとコード

ベンチマーク	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5-shot	59.6	74.5	78.6
MMLU (Pro COT)	5-shot	29.2	45.3	52.2
AGIEval	3 - 5-shot	42.1	57.4	66.2
MATH	4-shot	24.2	43.3	50.0
GSM8K	8-shot	38.4	71.0	82.6
GPQA	5-shot	15.0	25.4	24.3
MBPP	3-shot	46.0	60.4	65.6
HumanEval	0-shot	36.0	45.7	48.8

多言語

ベンチマーク	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XQuAD (all)	43.9	68.0	74.5	76.8
ECLeKTic	4.69	11.0	17.2	24.4
IndicGenBench	41.4	57.2	61.7	63.4

マルチモーダル

ベンチマーク	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

倫理とセキュリティ

評価方法

評価方法には、構造化評価と関連コンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、各チームには異なる目標と人為的評価指標があります。これらのモデルは、倫理とセキュリティに関連する複数の異なるカテゴリで評価されています。

子どもの安全：テキストからテキスト、画像からテキストのプロンプトを評価し、子どもの性虐待や搾取を含む子どもの安全ポリシーをカバーしています。
コンテンツセキュリティ：テキストからテキスト、画像からテキストのプロンプトを評価し、嫌がらせ、暴力と血腥、憎しみの言葉を含むセキュリティポリシーをカバーしています。
表現上の危害：テキストからテキスト、画像からテキストのプロンプトを評価し、偏見、固定概念、有害な関連付けまたは不正確な情報を含むセキュリティポリシーをカバーしています。開発段階の評価に加えて、「保証評価」も行っています。これは、責任あるガバナンス決定のための独立した内部評価です。これらの評価はモデル開発チームとは別に行われ、リリースに関する決定情報を提供します。高レベルの結果はモデルチームにフィードバックされますが、プロンプトセットは保持され、過学習を防止し、結果が決定に役立つ能力を維持します。保証評価の結果は、リリースレビューの一部として責任とセキュリティ委員会に報告されます。

評価結果

すべてのセキュリティテスト分野で、以前のGemmaモデルと比較して、子どもの安全、コンテンツセキュリティ、表現上の危害のカテゴリで大きな改善が見られました。すべてのテストはセキュリティフィルターを使用せずに行われ、モデルの能力と挙動を評価しました。テキストからテキスト、画像からテキスト、およびすべてのモデル規模において、モデルはポリシー違反を最小限に抑え、以前のGemmaモデルよりも無根拠な推論において大幅な改善が見られました。評価の限界点として、英語のプロンプトのみが含まれていることが挙げられます。

使用と制限

想定用途

オープンな視覚言語モデル（VLM）は、さまざまな業界や分野で幅広い用途があります。以下に挙げる潜在的な用途は網羅的ではありません。このリストは、モデル作成者がモデルの学習と開発過程で考慮した可能なユースケースに関するコンテキスト情報を提供することを目的としています。

コンテンツ作成とコミュニケーション：
- テキスト生成：これらのモデルは、詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式の生成に使用できます。
- チャットボットと対話型AI：カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話インターフェイスを提供します。
- テキスト要約：テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出：これらのモデルは、視覚データを抽出、解釈、要約してテキストコミュニケーションに利用できます。
研究と教育：
- 自然言語処理（NLP）とVLM研究：これらのモデルは、研究人員がVLMとNLP技術を試験し、アルゴリズムを開発し、この分野を発展させるための基礎として利用できます。
- 言語学習：言語学習者が文法、語彙、読解力などの言語スキルを向上させるのに役立ちます。

🔧 技術詳細

ハードウェア

パフォーマンス：TPUはVLMの学習に関わる大量の計算を処理するように設計されています。CPUと比較して、学習を大幅に高速化できます。
メモリ：TPUは通常、大量の高帯域幅メモリを備えており、学習中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質を向上させることができます。
拡張性：TPU Pod（大型TPUクラスター）は、大型の基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供します。複数のTPUデバイスに学習を分散させることで、より高速かつ効率的な処理が可能です。
コスト効率：多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の良いソリューションを提供できます。特に、高速な学習による時間とリソースの節約を考慮すると、その効果が顕著です。
これらの利点は[Googleの持続可能な運用へのコミットメント][sustainability]に合致しています。

ソフトウェア

📄 ライセンス

Gemmaモデルのライセンスはgemmaです。Hugging Face上でGemmaにアクセスするには、Googleの使用許諾を確認して同意する必要があります。そのためには、Hugging Faceにログインし、以下のボタンをクリックしてください。リクエストはすぐに処理されます。ライセンスを確認する

📚 引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

モデルページ：Gemma

リソースと技術ドキュメント：

使用条件：利用規約

作者：Google DeepMind

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Google Gemma 3 27b It

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Gemma 3モデルカード

🚀 クイックスタート

インストール

実行例

pipeline APIを使用した実行

単一GPUまたは複数GPUでのモデル実行

✨ 主な機能

📦 インストール

💻 使用例

基本的な使用法

高度な使用法

📚 ドキュメント

モデル情報

概要

入力と出力

モデルデータ

学習データセット

データ前処理

実装情報

ハードウェア

ソフトウェア

評価

ベンチマークテスト結果

推論と事実性

STEMとコード

多言語

マルチモーダル

倫理とセキュリティ

評価方法

評価結果

使用と制限

想定用途

🔧 技術詳細

ハードウェア

ソフトウェア

📄 ライセンス

📚 引用

`pipeline` APIを使用した実行