T5Gemma - s - s - ul2オープンソースAIモデル - 無料でのデプロイでさまざまな生成と判別タスクを支援

ホーム

T5gemma S S Ul2

googleによって開発

T5Gemmaは、Googleが開発した軽量で強力なエンコーダー - デコーダー型の研究用モデルファミリーで、さまざまな生成および判別タスクに適しています。

大規模言語モデル

Transformers

#軽量エンコーダー - デコーダー #マルチタスクテキスト生成 #リソース効率的なデプロイ

ダウンロード数 121

リリース時間 : 6/19/2025

モデル概要

T5Gemmaは、事前学習されたデコーダー専用モデルをエンコーダー - デコーダーモデルに改変することで、デコーダー専用モデルの基本能力を引き継ぎ、同時により有利な品質 - 効率のトレードオフを提供します。質問応答、要約、推論などの生成タスクに適しており、そのエンコーダーは判別タスクにも使用できます。

モデル特徴

柔軟なアーキテクチャ

さまざまなサイズのエンコーダーとデコーダーを柔軟に組み合わせることができます。例えば、9Bのエンコーダーと2Bのデコーダーを組み合わせることができます。

複数のシリーズバージョン

公式のGemma 2 2Bおよび9Bチェックポイントから直接改変されたGemma 2シリーズと、従来のT5モデルアーキテクチャに沿ったT5互換シリーズが含まれています。

リソースにやさしい

比較的小さいモデルサイズにより、ノートパソコン、デスクトップ、または自社のクラウドインフラストラクチャなど、リソースが限られた環境でのデプロイが可能です。

幅広い適用性

質問応答、要約、推論などのさまざまな生成タスクに適しており、そのエンコーダーは判別タスクにも使用できます。

モデル能力

テキスト生成

テキスト要約

質問応答

推論

コード生成

数学問題の解答

使用事例

コンテンツ作成とコミュニケーション

テキスト生成

詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式を生成します。

テキスト要約

テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。

研究と教育

自然言語処理研究

研究人員がNLP技術を試験し、アルゴリズムを開発し、この分野を発展させるための基盤として機能します。

🚀 T5Gemmaモデル

T5Gemmaは、Googleによる軽量で強力なエンコーダ・デコーダ型の研究用モデルです。事前学習済みのデコーダ専用モデルをエンコーダ・デコーダ型に適応させることで、様々な生成タスクや識別タスクに適しています。

⚠️ 重要提示

このリポジトリは、SエンコーダとSデコーダを持つT5Gemma（事前学習済み）に対応しています（UL2を使用して適応されています）

Property	Details
Model Type	text2text-generation
Training Data	これらのモデルは、多様なソースを含むテキストデータセットでトレーニングされました。9B - 9B、9B - 2B、および2B - 2Bモデルは2兆トークンで適応され、T5サイズのモデル（Small、Base、Large、ML、およびXL）は最初に2兆トークンで（デコーダ専用）事前学習され、その後2兆トークンで（エンコーダ・デコーダ）適応されました。

Property

Details

Model Type

text2text-generation

Training Data

これらのモデルは、多様なソースを含むテキストデータセットでトレーニングされました。9B - 9B、9B - 2B、および2B - 2Bモデルは2兆トークンで適応され、T5サイズのモデル（Small、Base、Large、ML、およびXL）は最初に2兆トークンで（デコーダ専用）事前学習され、その後2兆トークンで（エンコーダ・デコーダ）適応されました。

モデルページ: T5Gemma

リソースと技術ドキュメント:

利用規約: Terms

著者: Google DeepMind

🚀 クイックスタート

T5Gemmaを使用するには、まずTransformersライブラリをインストールします。その後、以下のコードスニペットを参考にモデルを実行できます。

pip install -U transformers

✨ 主な機能

T5Gemmaは、事前学習済みのデコーダ専用モデルをエンコーダ・デコーダ型に適応させることで、デコーダ専用モデルの基本的な機能を引き継ぎながら、より良好な品質と効率のトレードオフを提供します。
エンコーダとデコーダのサイズを柔軟に組み合わせることができます（例：9Bエンコーダと2Bデコーダ）。
テキスト生成タスク（質問応答、要約、推論など）に適しており、エンコーダは識別タスクにも利用できます。
比較的小さなサイズのため、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなどのリソースが限られた環境でのデプロイが可能です。

📦 インストール

pip install -U transformers

💻 使用例

基本的な使用法

import torch
from transformers import pipeline

pipe = pipeline(
    "text2text-generation",
    model="google/t5gemma-s-s-ul2",
    device="cuda",  # replace with "mps" to run on a Mac device
)

text = "Once upon a time,"
outputs = pipe(text, max_new_tokens=32)
response = outputs[0]["generated_text"]
print(response)

高度な使用法

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/t5gemma-s-s-ul2")
model = AutoModelForSeq2SeqLM.from_pretrained(
    "google/t5gemma-s-s-ul2",
    device_map="auto",
)

input_text = "Write me a poem about Machine Learning. Answer:"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

入力と出力

入力:
- 質問、プロンプト、または要約するドキュメントなどのテキスト文字列
出力:
- 入力に対する生成された英語のテキスト。質問に対する回答、またはドキュメントの要約など。

引用

@article{t5gemma_2025,
  title={Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation},
  author={Zhang, Biao and Moiseev, Fedor and Ainslie, Joshua and Suganthan, Paul and Ma, Min and Bhupatiraju, Surya and Lebron, Fede and Firat, Orhan and Joulin, Armand and Dong, Zhe},
  year={2025}
}

📚 ドキュメント

モデルデータ

トレーニングデータセット

ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、および語彙にさらされます。主に英語のコンテンツです。
コード: モデルをコードにさらすことで、プログラミング言語の構文やパターンを学習し、コード生成やコード関連の質問の理解能力が向上します。
数学: 数学的なテキストでのトレーニングにより、モデルは論理的な推論、記号表現を学習し、数学的なクエリに対応できるようになります。

これらの多様なデータソースの組み合わせは、幅広いタスクやテキスト形式を処理できる強力な言語モデルをトレーニングするために重要です。

データ前処理

トレーニングデータに適用された主なデータクリーニングとフィルタリング方法は以下の通りです。

CSAMフィルタリング: データ準備プロセスの複数の段階で、厳格なCSAM（児童性虐待素材）フィルタリングが適用され、有害で違法なコンテンツが除外されます。
敏感データフィルタリング: Gemmaの事前学習モデルを安全かつ信頼できるものにするため、自動化された技術を使用して、トレーニングセットから特定の個人情報やその他の敏感データがフィルタリングされます。
追加の方法: 当社のポリシーに沿ったコンテンツ品質と安全性に基づくフィルタリング。

実装情報

ハードウェア

T5Gemmaは、Tensor Processing Unit (TPU)ハードウェア（TPUv4p、TPUv5p、およびTPUv5e）を使用してトレーニングされました。大規模言語モデルのトレーニングには大量の計算能力が必要です。TPUは、機械学習で一般的な行列演算用に特別に設計されており、この分野でいくつかの利点を提供します。

パフォーマンス: TPUは、LLMのトレーニングに関与する大量の計算を処理するように特別に設計されています。CPUと比較してトレーニングを大幅に高速化できます。
メモリ: TPUは多くの場合、大量の高帯域幅メモリを備えており、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上する可能性があります。
スケーラビリティ: TPU Pod（TPUの大規模クラスター）は、大規模な基礎モデルのますます複雑なトレーニングを処理するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させることで、より高速かつ効率的な処理が可能です。
コスト効率: 多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、大規模モデルのトレーニングにおいてよりコスト効率の高いソリューションを提供できます。特に、高速なトレーニングによって節約される時間とリソースを考慮すると。
これらの利点は、Googleの持続可能な運用へのコミットメントと一致しています。

ソフトウェア

トレーニングは、JAXとML Pathwaysを使用して行われました。JAXにより、研究者はTPUを含む最新世代のハードウェアを活用して、大規模モデルのより高速かつ効率的なトレーニングが可能になります。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築するための最新の取り組みです。これは、このような大規模言語モデルを含む基礎モデルに特に適しています。
JAXとML Pathwaysは、Geminiモデルファミリに関する論文で説明されているように使用されています。「JaxとPathwaysの 'single controller' プログラミングモデルにより、単一のPythonプロセスがトレーニング全体を調整でき、開発ワークフローが大幅に簡素化されます。」

評価

ベンチマーク結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、多数の異なるデータセットとメトリックに対して評価されました。

PTモデル。XX/YY: PrefixLM/UL2チェックポイントの結果。

ベンチマーク	メトリック	2B-2B	9B-2B	9B-9B	S-S	B-B	L-L	ML-ML	XL-XL
MMLU	5-shot, top-1	46.8/50.4	60.3/64.8	71.3/72.1	24.7/25.2	24.8/25.7	27.3/27.5	27.3/29.1	34.8/36.6
HellaSwag	10-shot	74.9/74.0	75.7/74.3	81.0/82.5	30.9/30.5	40.5/38.6	57.3/54.9	65.4/64.5	68.9/69.0
PIQA	0-shot	79.0/78.8	78.3/78.2	81.1/82.4	62.8/61.5	67.0/66.2	71.2/70.9	74.3/75.5	76.2/78.0
BoolQ	0-shot	75.6/77.5	84.6/85.1	85.6/87.0	53.1/61.1	52.3/49.6	62.2/62.3	62.6/61.7	69.9/68.0
WinoGrande	partial score	69.5/69.8	68.1/58.8	78.7/78.2	52.0/50.0	53.9/51.6	58.1/56.7	64.6/62.4	64.7/65.1
ARC-e	0-shot	77.1/76.5	82.9/81.1	85.3/86.0	42.3/43.8	48.5/47.9	59.5/56.9	65.8/63.5	71.2/69.2
ARC-c	25-shot	52.0/53.5	59.9/59.6	65.0/66.5	23.0/23.4	25.1/25.7	32.7/31.5	41.4/40.4	46.5/45.9
TriviaQA	5-shot	51.2/51.1	66.2/58.3	75.2/73.3	3.2/3.3	7.2/5.9	19.4/15.9	33.2/25.4	41.0/34.3
Natural Questions	5-shot	28.4/28.3	37.1/33.9	43.1/44.0	7.1/7.7	10.8/10.9	15.6/15.3	21.5/19.6	23.7/21.8
HumanEval	pass@1	27.4/28.0	33.5/22.0	40.2/37.2	0.6/0.0	3.7/1.8	12.8/8.5	17.1/15.9	23.2/19.5
MBPP	3-shot	37.4/36.4	43.4/38.6	55.6/55.2	1.4/0.0	4.6/3.4	15.0/11.8	27/24.6	30.0/28.0
GSM8K	5-shot, maj@1	41.7/35.8	48.7/39.7	72.8/74.0	2.0/0.8	2.2/1.5	6.6/4.1	13.7/17.5	25.8/22.4
MATH-500	4-shot	24.2/20.4	23.6/18.4	37.8/39.2	1.0/1.2	1.8/2.4	5.0/4.8	11.0/12	15.6/12.4
AGIEval	3-5-shot	35.0/37.0	43.6/45.7	53.1/56.4	20.8/21.4	21.8/21.3	22.5/23.0	23.4/24.5	28.0/27.4
BIG-Bench	3-shot, CoT	51.9/50.5	51.6/52.1	74.7/76.3	24.7/22.7	23.0/24.8	29.9/31.3	37.3/35.9	44.5/43.1

倫理と安全性

評価アプローチ

当社の評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、それぞれ異なる目標と人間による評価メトリックを持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連するいくつかの異なるカテゴリに対して評価されました。

児童安全: 児童性虐待や搾取を含む児童安全ポリシーをカバーするテキスト生成プロンプトの評価。
コンテンツ安全: 嫌がらせ、暴力や残虐描写、およびヘイトスピーチを含む安全ポリシーをカバーするテキスト生成プロンプトの評価。
表現上の危害: 偏見、ステレオタイプ、および有害な関連付けや不正確さを含む安全ポリシーをカバーするテキスト生成プロンプトの評価。

開発レベルの評価に加えて、当社は「保証評価」を実施しています。これは、責任あるガバナンスの意思決定のための「独立した」内部評価です。これらはモデル開発チームとは別に実施され、リリースに関する意思決定に情報を提供します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットはホールドアウトされて、過学習を防ぎ、結果が意思決定に役立つ能力を維持します。保証評価の結果は、リリースレビューの一部として当社の責任と安全委員会に報告されます。

評価結果

すべての安全テストの分野で、以前のGemmaモデルに比べて、児童安全、コンテンツ安全、および表現上の危害のカテゴリで大きな改善が見られました。すべてのテストは、安全フィルターを使用せずに実施され、モデルの能力と振る舞いを評価しました。テキスト生成と画像からテキストへの変換の両方で、すべてのモデルサイズにわたって、モデルは最小限のポリシー違反を生み出し、以前のGemmaモデルの性能に比べて、根拠のない推論に関して大幅な改善を示しました。ただし、評価には英語のプロンプトのみが含まれていたという制限があります。

使用法と制限

意図された使用法

オープンな大規模言語モデル（LLM）は、さまざまな産業やドメインで幅広い用途があります。以下の潜在的な使用例のリストは網羅的ではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として考慮した可能な使用ケースに関するコンテキスト情報を提供することです。

コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、脚本、コード、マーケティングコピー、およびメール草稿などの創造的なテキスト形式を生成するために使用できます。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
研究と教育
- 自然言語処理（NLP）研究: これらのモデルは、研究者がNLP技術を実験し、アルゴリズムを開発し、この分野の進歩に貢献するための基礎として機能できます。

制限

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きく影響します。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクでより優れた性能を発揮します。オープンエンドまたは非常に複雑なタスクは困難になる可能性があります。
- モデルの性能は、提供されるコンテキストの量に影響される可能性があります（ある程度まで、より長いコンテキストは一般的により良い出力をもたらします）。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する可能性があります。
事実の正確性
- モデルはトレーニングデータセットから学習した情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。

倫理的な考慮事項とリスク

大規模言語モデル（LLM）の開発にはいくつかの倫理的な懸念が生じます。オープンモデルを作成するにあたり、当社は以下の点を慎重に考慮しています。

偏見と公平性
- 大規模な現実世界のテキストデータでトレーニングされたLLMは、トレーニング素材に埋め込まれた社会文化的な偏見を反映する可能性があります。これらのモデルは、入力データの前処理と本カードに報告されている事後評価を含め、注意深く精査されました。
誤情報と誤用
- LLMは、誤った、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルの責任ある使用のためのガイドラインが提供されています。Responsible Generative AI Toolkitを参照してください。
透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、機能、制限、および評価プロセスに関する詳細をまとめています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者や研究者にLLM技術をアクセス可能にすることで、イノベーションを共有する機会を提供します。

識別されたリスクと緩和策:

偏見の永続化: モデルのトレーニング、微調整、およびその他の使用ケースで、評価指標や人間のレビューを使用した継続的な監視と、バイアス除去技術の探索を行うことが推奨されます。
有害なコンテンツの生成: コンテンツ安全のためのメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションの使用ケースに基づいて、適切なコンテンツ安全対策を実装するように注意を払うことが推奨されます。
悪意のある目的での誤用: 技術的な制限と開発者およびエンドユーザーの教育は、LLMの悪意のあるアプリケーションに対抗するのに役立ちます。教育リソースと誤用を報告するための機構がユーザーに提供されています。Gemmaモデルの禁止された使用法は、Gemma Prohibited Use Policyに概説されています。
プライバシー侵害: モデルは、特定の個人情報やその他の敏感データを削除するためにフィルタリングされたデータでトレーニングされました。開発者は、プライバシー保護技術を使用してプライバシー規制に準拠することが推奨されます。

メリット

リリース時点で、このモデルファミリは、同じサイズのモデルと比較して、責任あるAI開発のために最初から設計された高性能のオープンエンコーダ・デコーダ型の大規模言語モデルの実装を提供します。

本ドキュメントで説明されているベンチマーク評価指標を使用すると、これらのモデルは他の同サイズのオープンモデルの代替品よりも優れた性能を示すことがわかりました。

📄 ライセンス

Gemma

💡 使用アドバイス

Hugging Face上でGemmaにアクセスするには、Googleの使用許諾書を確認して同意する必要があります。これを行うには、Hugging Faceにログインして以下のボタンをクリックしてください。リクエストはすぐに処理されます。

Acknowledge license