モデル概要
モデル特徴
モデル能力
使用事例
🚀 T5Gemmaモデル
T5Gemmaは、Googleによる軽量で強力なエンコーダ・デコーダ型の研究用モデルです。事前学習済みのデコーダ専用モデルをエンコーダ・デコーダ型に適応させることで、様々な生成タスクや識別タスクに適しています。
⚠️ 重要提示
このリポジトリは、SエンコーダとSデコーダを持つT5Gemma(事前学習済み)に対応しています(UL2を使用して適応されています)
Property | Details |
---|---|
Model Type | text2text-generation |
Training Data | これらのモデルは、多様なソースを含むテキストデータセットでトレーニングされました。9B - 9B、9B - 2B、および2B - 2Bモデルは2兆トークンで適応され、T5サイズのモデル(Small、Base、Large、ML、およびXL)は最初に2兆トークンで(デコーダ専用)事前学習され、その後2兆トークンで(エンコーダ・デコーダ)適応されました。 |
モデルページ: T5Gemma
リソースと技術ドキュメント:
- T5Gemma Technical Report
- Responsible Generative AI Toolkit
- T5Gemma on Kaggle
- T5Gemma on Vertex Model Garden
利用規約: Terms
著者: Google DeepMind
🚀 クイックスタート
T5Gemmaを使用するには、まずTransformersライブラリをインストールします。その後、以下のコードスニペットを参考にモデルを実行できます。
pip install -U transformers
✨ 主な機能
- T5Gemmaは、事前学習済みのデコーダ専用モデルをエンコーダ・デコーダ型に適応させることで、デコーダ専用モデルの基本的な機能を引き継ぎながら、より良好な品質と効率のトレードオフを提供します。
- エンコーダとデコーダのサイズを柔軟に組み合わせることができます(例:9Bエンコーダと2Bデコーダ)。
- テキスト生成タスク(質問応答、要約、推論など)に適しており、エンコーダは識別タスクにも利用できます。
- 比較的小さなサイズのため、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなどのリソースが限られた環境でのデプロイが可能です。
📦 インストール
pip install -U transformers
💻 使用例
基本的な使用法
import torch
from transformers import pipeline
pipe = pipeline(
"text2text-generation",
model="google/t5gemma-s-s-ul2",
device="cuda", # replace with "mps" to run on a Mac device
)
text = "Once upon a time,"
outputs = pipe(text, max_new_tokens=32)
response = outputs[0]["generated_text"]
print(response)
高度な使用法
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/t5gemma-s-s-ul2")
model = AutoModelForSeq2SeqLM.from_pretrained(
"google/t5gemma-s-s-ul2",
device_map="auto",
)
input_text = "Write me a poem about Machine Learning. Answer:"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
入力と出力
-
入力:
- 質問、プロンプト、または要約するドキュメントなどのテキスト文字列
-
出力:
- 入力に対する生成された英語のテキスト。質問に対する回答、またはドキュメントの要約など。
引用
@article{t5gemma_2025,
title={Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation},
author={Zhang, Biao and Moiseev, Fedor and Ainslie, Joshua and Suganthan, Paul and Ma, Min and Bhupatiraju, Surya and Lebron, Fede and Firat, Orhan and Joulin, Armand and Dong, Zhe},
year={2025}
}
📚 ドキュメント
モデルデータ
トレーニングデータセット
これらのモデルは、多様なソースを含むテキストデータセットでトレーニングされました。9B - 9B、9B - 2B、および2B - 2Bモデルは2兆トークンで適応され、T5サイズのモデル(Small、Base、Large、ML、およびXL)は最初に2兆トークンで(デコーダ専用)事前学習され、その後2兆トークンで(エンコーダ・デコーダ)適応されました。主な構成要素は以下の通りです。
- ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、および語彙にさらされます。主に英語のコンテンツです。
- コード: モデルをコードにさらすことで、プログラミング言語の構文やパターンを学習し、コード生成やコード関連の質問の理解能力が向上します。
- 数学: 数学的なテキストでのトレーニングにより、モデルは論理的な推論、記号表現を学習し、数学的なクエリに対応できるようになります。
これらの多様なデータソースの組み合わせは、幅広いタスクやテキスト形式を処理できる強力な言語モデルをトレーニングするために重要です。
データ前処理
トレーニングデータに適用された主なデータクリーニングとフィルタリング方法は以下の通りです。
- CSAMフィルタリング: データ準備プロセスの複数の段階で、厳格なCSAM(児童性虐待素材)フィルタリングが適用され、有害で違法なコンテンツが除外されます。
- 敏感データフィルタリング: Gemmaの事前学習モデルを安全かつ信頼できるものにするため、自動化された技術を使用して、トレーニングセットから特定の個人情報やその他の敏感データがフィルタリングされます。
- 追加の方法: 当社のポリシーに沿ったコンテンツ品質と安全性に基づくフィルタリング。
実装情報
ハードウェア
T5Gemmaは、Tensor Processing Unit (TPU)ハードウェア(TPUv4p、TPUv5p、およびTPUv5e)を使用してトレーニングされました。大規模言語モデルのトレーニングには大量の計算能力が必要です。TPUは、機械学習で一般的な行列演算用に特別に設計されており、この分野でいくつかの利点を提供します。
- パフォーマンス: TPUは、LLMのトレーニングに関与する大量の計算を処理するように特別に設計されています。CPUと比較してトレーニングを大幅に高速化できます。
- メモリ: TPUは多くの場合、大量の高帯域幅メモリを備えており、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上する可能性があります。
- スケーラビリティ: TPU Pod(TPUの大規模クラスター)は、大規模な基礎モデルのますます複雑なトレーニングを処理するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させることで、より高速かつ効率的な処理が可能です。
- コスト効率: 多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、大規模モデルのトレーニングにおいてよりコスト効率の高いソリューションを提供できます。特に、高速なトレーニングによって節約される時間とリソースを考慮すると。
- これらの利点は、Googleの持続可能な運用へのコミットメントと一致しています。
ソフトウェア
トレーニングは、JAXとML Pathwaysを使用して行われました。JAXにより、研究者はTPUを含む最新世代のハードウェアを活用して、大規模モデルのより高速かつ効率的なトレーニングが可能になります。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築するための最新の取り組みです。これは、このような大規模言語モデルを含む基礎モデルに特に適しています。
JAXとML Pathwaysは、Geminiモデルファミリに関する論文で説明されているように使用されています。「JaxとPathwaysの 'single controller' プログラミングモデルにより、単一のPythonプロセスがトレーニング全体を調整でき、開発ワークフローが大幅に簡素化されます。」
評価
ベンチマーク結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするために、多数の異なるデータセットとメトリックに対して評価されました。
PTモデル。XX/YY: PrefixLM/UL2チェックポイントの結果。
ベンチマーク | メトリック | 2B-2B | 9B-2B | 9B-9B | S-S | B-B | L-L | ML-ML | XL-XL |
---|---|---|---|---|---|---|---|---|---|
MMLU | 5-shot, top-1 | 46.8/50.4 | 60.3/64.8 | 71.3/72.1 | 24.7/25.2 | 24.8/25.7 | 27.3/27.5 | 27.3/29.1 | 34.8/36.6 |
HellaSwag | 10-shot | 74.9/74.0 | 75.7/74.3 | 81.0/82.5 | 30.9/30.5 | 40.5/38.6 | 57.3/54.9 | 65.4/64.5 | 68.9/69.0 |
PIQA | 0-shot | 79.0/78.8 | 78.3/78.2 | 81.1/82.4 | 62.8/61.5 | 67.0/66.2 | 71.2/70.9 | 74.3/75.5 | 76.2/78.0 |
BoolQ | 0-shot | 75.6/77.5 | 84.6/85.1 | 85.6/87.0 | 53.1/61.1 | 52.3/49.6 | 62.2/62.3 | 62.6/61.7 | 69.9/68.0 |
WinoGrande | partial score | 69.5/69.8 | 68.1/58.8 | 78.7/78.2 | 52.0/50.0 | 53.9/51.6 | 58.1/56.7 | 64.6/62.4 | 64.7/65.1 |
ARC-e | 0-shot | 77.1/76.5 | 82.9/81.1 | 85.3/86.0 | 42.3/43.8 | 48.5/47.9 | 59.5/56.9 | 65.8/63.5 | 71.2/69.2 |
ARC-c | 25-shot | 52.0/53.5 | 59.9/59.6 | 65.0/66.5 | 23.0/23.4 | 25.1/25.7 | 32.7/31.5 | 41.4/40.4 | 46.5/45.9 |
TriviaQA | 5-shot | 51.2/51.1 | 66.2/58.3 | 75.2/73.3 | 3.2/3.3 | 7.2/5.9 | 19.4/15.9 | 33.2/25.4 | 41.0/34.3 |
Natural Questions | 5-shot | 28.4/28.3 | 37.1/33.9 | 43.1/44.0 | 7.1/7.7 | 10.8/10.9 | 15.6/15.3 | 21.5/19.6 | 23.7/21.8 |
HumanEval | pass@1 | 27.4/28.0 | 33.5/22.0 | 40.2/37.2 | 0.6/0.0 | 3.7/1.8 | 12.8/8.5 | 17.1/15.9 | 23.2/19.5 |
MBPP | 3-shot | 37.4/36.4 | 43.4/38.6 | 55.6/55.2 | 1.4/0.0 | 4.6/3.4 | 15.0/11.8 | 27/24.6 | 30.0/28.0 |
GSM8K | 5-shot, maj@1 | 41.7/35.8 | 48.7/39.7 | 72.8/74.0 | 2.0/0.8 | 2.2/1.5 | 6.6/4.1 | 13.7/17.5 | 25.8/22.4 |
MATH-500 | 4-shot | 24.2/20.4 | 23.6/18.4 | 37.8/39.2 | 1.0/1.2 | 1.8/2.4 | 5.0/4.8 | 11.0/12 | 15.6/12.4 |
AGIEval | 3-5-shot | 35.0/37.0 | 43.6/45.7 | 53.1/56.4 | 20.8/21.4 | 21.8/21.3 | 22.5/23.0 | 23.4/24.5 | 28.0/27.4 |
BIG-Bench | 3-shot, CoT | 51.9/50.5 | 51.6/52.1 | 74.7/76.3 | 24.7/22.7 | 23.0/24.8 | 29.9/31.3 | 37.3/35.9 | 44.5/43.1 |
倫理と安全性
評価アプローチ
当社の評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、それぞれ異なる目標と人間による評価メトリックを持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連するいくつかの異なるカテゴリに対して評価されました。
- 児童安全: 児童性虐待や搾取を含む児童安全ポリシーをカバーするテキスト生成プロンプトの評価。
- コンテンツ安全: 嫌がらせ、暴力や残虐描写、およびヘイトスピーチを含む安全ポリシーをカバーするテキスト生成プロンプトの評価。
- 表現上の危害: 偏見、ステレオタイプ、および有害な関連付けや不正確さを含む安全ポリシーをカバーするテキスト生成プロンプトの評価。
開発レベルの評価に加えて、当社は「保証評価」を実施しています。これは、責任あるガバナンスの意思決定のための「独立した」内部評価です。これらはモデル開発チームとは別に実施され、リリースに関する意思決定に情報を提供します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットはホールドアウトされて、過学習を防ぎ、結果が意思決定に役立つ能力を維持します。保証評価の結果は、リリースレビューの一部として当社の責任と安全委員会に報告されます。
評価結果
すべての安全テストの分野で、以前のGemmaモデルに比べて、児童安全、コンテンツ安全、および表現上の危害のカテゴリで大きな改善が見られました。すべてのテストは、安全フィルターを使用せずに実施され、モデルの能力と振る舞いを評価しました。テキスト生成と画像からテキストへの変換の両方で、すべてのモデルサイズにわたって、モデルは最小限のポリシー違反を生み出し、以前のGemmaモデルの性能に比べて、根拠のない推論に関して大幅な改善を示しました。ただし、評価には英語のプロンプトのみが含まれていたという制限があります。
使用法と制限
意図された使用法
オープンな大規模言語モデル(LLM)は、さまざまな産業やドメインで幅広い用途があります。以下の潜在的な使用例のリストは網羅的ではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として考慮した可能な使用ケースに関するコンテキスト情報を提供することです。
-
コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、脚本、コード、マーケティングコピー、およびメール草稿などの創造的なテキスト形式を生成するために使用できます。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
-
研究と教育
- 自然言語処理(NLP)研究: これらのモデルは、研究者がNLP技術を実験し、アルゴリズムを開発し、この分野の進歩に貢献するための基礎として機能できます。
制限
-
トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きく影響します。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
-
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクでより優れた性能を発揮します。オープンエンドまたは非常に複雑なタスクは困難になる可能性があります。
- モデルの性能は、提供されるコンテキストの量に影響される可能性があります(ある程度まで、より長いコンテキストは一般的により良い出力をもたらします)。
-
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する可能性があります。
-
事実の正確性
- モデルはトレーニングデータセットから学習した情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
-
常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。
倫理的な考慮事項とリスク
大規模言語モデル(LLM)の開発にはいくつかの倫理的な懸念が生じます。オープンモデルを作成するにあたり、当社は以下の点を慎重に考慮しています。
-
偏見と公平性
- 大規模な現実世界のテキストデータでトレーニングされたLLMは、トレーニング素材に埋め込まれた社会文化的な偏見を反映する可能性があります。これらのモデルは、入力データの前処理と本カードに報告されている事後評価を含め、注意深く精査されました。
-
誤情報と誤用
- LLMは、誤った、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルの責任ある使用のためのガイドラインが提供されています。Responsible Generative AI Toolkitを参照してください。
-
透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、機能、制限、および評価プロセスに関する詳細をまとめています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者や研究者にLLM技術をアクセス可能にすることで、イノベーションを共有する機会を提供します。
識別されたリスクと緩和策:
- 偏見の永続化: モデルのトレーニング、微調整、およびその他の使用ケースで、評価指標や人間のレビューを使用した継続的な監視と、バイアス除去技術の探索を行うことが推奨されます。
- 有害なコンテンツの生成: コンテンツ安全のためのメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションの使用ケースに基づいて、適切なコンテンツ安全対策を実装するように注意を払うことが推奨されます。
- 悪意のある目的での誤用: 技術的な制限と開発者およびエンドユーザーの教育は、LLMの悪意のあるアプリケーションに対抗するのに役立ちます。教育リソースと誤用を報告するための機構がユーザーに提供されています。Gemmaモデルの禁止された使用法は、Gemma Prohibited Use Policyに概説されています。
- プライバシー侵害: モデルは、特定の個人情報やその他の敏感データを削除するためにフィルタリングされたデータでトレーニングされました。開発者は、プライバシー保護技術を使用してプライバシー規制に準拠することが推奨されます。
メリット
リリース時点で、このモデルファミリは、同じサイズのモデルと比較して、責任あるAI開発のために最初から設計された高性能のオープンエンコーダ・デコーダ型の大規模言語モデルの実装を提供します。
本ドキュメントで説明されているベンチマーク評価指標を使用すると、これらのモデルは他の同サイズのオープンモデルの代替品よりも優れた性能を示すことがわかりました。
📄 ライセンス
Gemma
💡 使用アドバイス
Hugging Face上でGemmaにアクセスするには、Googleの使用許諾書を確認して同意する必要があります。これを行うには、Hugging Faceにログインして以下のボタンをクリックしてください。リクエストはすぐに処理されます。



