模型简介
模型特点
模型能力
使用案例
🚀 T5Gemma模型卡片
T5Gemma是谷歌推出的轻量级且强大的编码器 - 解码器研究模型家族。它能继承仅解码器模型的基础能力,在质量和效率间取得良好平衡,适用于多种生成和判别任务,还能在资源有限的环境中部署。
🚀 快速开始
安装
首先,使用以下命令安装Transformers库:
pip install -U transformers
运行示例
使用pipeline
API运行
import torch
from transformers import pipeline
pipe = pipeline(
"text2text-generation",
model="google/t5gemma-s-s-ul2",
device="cuda", # 若在Mac设备上运行,将其替换为 "mps"
)
text = "Once upon a time,"
outputs = pipe(text, max_new_tokens=32)
response = outputs[0]["generated_text"]
print(response)
在单GPU或多GPU上运行模型
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/t5gemma-s-s-ul2")
model = AutoModelForSeq2SeqLM.from_pretrained(
"google/t5gemma-s-s-ul2",
device_map="auto",
)
input_text = "Write me a poem about Machine Learning. Answer:"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
✨ 主要特性
- 灵活架构:可灵活搭配不同大小的编码器和解码器,如9B编码器搭配2B解码器。
- 多系列版本:包括直接从官方Gemma 2 2B和9B检查点改编的Gemma 2系列,以及与传统T5模型架构和参数数量对齐的T5兼容系列。
- 广泛适用性:适用于多种生成任务,如问答、摘要和推理;其编码器也可用于判别任务。
- 资源友好:相对较小的模型尺寸使其能够在笔记本电脑、台式机或自有云基础设施等资源有限的环境中部署。
📚 详细文档
模型信息
描述
T5Gemma是谷歌推出的一系列轻量级但功能强大的编码器 - 解码器研究模型。这些模型是通过将预训练的仅解码器模型改编为编码器 - 解码器模型而创建的。这种改编使T5Gemma能够继承仅解码器模型的基础能力,同时提供更有利的质量 - 效率权衡。一个关键特性是能够灵活地搭配不同大小的编码器和解码器(例如,9B编码器搭配2B解码器)。
T5Gemma发布了两个不同的系列:
- Gemma 2系列:直接从官方Gemma 2 2B和9B检查点改编的模型。包括2B - 2B、9B - 9B和9B - 2B变体。
- T5兼容系列:使用Gemma 2配方从头开始预训练的模型,但架构和参数数量与传统T5模型(Small、Base、Large、XL)对齐。该系列还包括一个ML(Medium - Large,约2B)模型,以填补Large和XL之间的差距。
这些模型是文本到文本的,支持英语,预训练变体(通过PrefixLM或UL2等目标进行改编)和指令调整变体的权重是开放的。T5Gemma模型非常适合各种生成任务,包括问答、摘要和推理。同时,它们的编码器可用于判别任务,在分类和理解基准测试中表现出色。
输入和输出
- 输入:文本字符串,如问题、提示或待摘要的文档。
- 输出:针对输入生成的英语文本,如问题的答案或文档的摘要。
引用
@article{t5gemma_2025,
title={Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation},
author={Zhang, Biao and Moiseev, Fedor and Ainslie, Joshua and Suganthan, Paul and Ma, Min and Bhupatiraju, Surya and Lebron, Fede and Firat, Orhan and Joulin, Armand and Dong, Zhe},
year={2025}
}
模型数据
训练数据集
这些模型在包含多种来源的文本数据集上进行训练。9B - 9B、9B - 2B和2B - 2B模型使用2万亿个标记进行改编,T5大小的模型(Small、Base、Large、ML和XL)首先使用2万亿个标记进行预训练(仅解码器),然后使用2万亿个标记进行改编(编码器 - 解码器)。主要组成部分如下:
- 网页文档:多样化的网页文本集合确保模型接触到广泛的语言风格、主题和词汇。主要是英语内容。
- 代码:让模型接触代码有助于它学习编程语言的语法和模式,从而提高其生成代码或理解与代码相关问题的能力。
- 数学:在数学文本上进行训练有助于模型学习逻辑推理、符号表示,并处理数学查询。
这些多样化数据源的组合对于训练一个能够处理各种不同任务和文本格式的强大语言模型至关重要。
数据预处理
以下是应用于训练数据的主要数据清理和过滤方法:
- CSAM过滤:在数据准备过程的多个阶段应用了严格的CSAM(儿童性虐待材料)过滤,以确保排除有害和非法内容。
- 敏感数据过滤:作为使Gemma预训练模型安全可靠的一部分,使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
- 其他方法:根据我们的政策基于内容质量和安全性进行过滤。
实现信息
硬件
T5Gemma使用张量处理单元(TPU)硬件(TPUv4p、TPUv5p和TPUv5e)进行训练。训练大型语言模型需要大量的计算能力。TPU专门为机器学习中常见的矩阵运算而设计,在这一领域具有以下优势:
- 性能:TPU专门用于处理训练大语言模型所涉及的大规模计算。与CPU相比,它们可以显著加速训练过程。
- 内存:TPU通常配备大量的高带宽内存,允许在训练期间处理大型模型和批量大小。这有助于提高模型质量。
- 可扩展性:TPU Pod(大型TPU集群)为处理大型基础模型不断增长的复杂性提供了可扩展的解决方案。您可以将训练分布在多个TPU设备上,以实现更快、更高效的处理。
- 成本效益:在许多情况下,与基于CPU的基础设施相比,TPU可以为训练大型模型提供更具成本效益的解决方案,特别是考虑到更快的训练速度所节省的时间和资源。
- 这些优势与谷歌的可持续运营承诺相一致。
软件
训练使用JAX和ML Pathways进行。JAX使研究人员能够利用最新一代的硬件(包括TPU)来更快、更高效地训练大型模型。ML Pathways是谷歌构建能够跨多个任务进行泛化的人工智能系统的最新努力。这特别适用于基础模型,包括像这样的大型语言模型。
JAX和ML Pathways的使用方式如关于Gemini模型家族的论文中所述:“Jax和Pathways的‘单控制器’编程模型允许单个Python进程编排整个训练过程,极大地简化了开发工作流程。”
评估
基准测试结果
这些模型针对大量不同的数据集和指标进行了评估,以涵盖文本生成的各个方面。
PT模型。XX/YY:PrefixLM/UL2检查点的结果。
基准测试 | 指标 | 2B - 2B | 9B - 2B | 9B - 9B | S - S | B - B | L - L | ML - ML | XL - XL |
---|---|---|---|---|---|---|---|---|---|
MMLU | 5 - shot,top - 1 | 46.8/50.4 | 60.3/64.8 | 71.3/72.1 | 24.7/25.2 | 24.8/25.7 | 27.3/27.5 | 27.3/29.1 | 34.8/36.6 |
HellaSwag | 10 - shot | 74.9/74.0 | 75.7/74.3 | 81.0/82.5 | 30.9/30.5 | 40.5/38.6 | 57.3/54.9 | 65.4/64.5 | 68.9/69.0 |
PIQA | 0 - shot | 79.0/78.8 | 78.3/78.2 | 81.1/82.4 | 62.8/61.5 | 67.0/66.2 | 71.2/70.9 | 74.3/75.5 | 76.2/78.0 |
BoolQ | 0 - shot | 75.6/77.5 | 84.6/85.1 | 85.6/87.0 | 53.1/61.1 | 52.3/49.6 | 62.2/62.3 | 62.6/61.7 | 69.9/68.0 |
WinoGrande | 部分得分 | 69.5/69.8 | 68.1/58.8 | 78.7/78.2 | 52.0/50.0 | 53.9/51.6 | 58.1/56.7 | 64.6/62.4 | 64.7/65.1 |
ARC - e | 0 - shot | 77.1/76.5 | 82.9/81.1 | 85.3/86.0 | 42.3/43.8 | 48.5/47.9 | 59.5/56.9 | 65.8/63.5 | 71.2/69.2 |
ARC - c | 25 - shot | 52.0/53.5 | 59.9/59.6 | 65.0/66.5 | 23.0/23.4 | 25.1/25.7 | 32.7/31.5 | 41.4/40.4 | 46.5/45.9 |
TriviaQA | 5 - shot | 51.2/51.1 | 66.2/58.3 | 75.2/73.3 | 3.2/3.3 | 7.2/5.9 | 19.4/15.9 | 33.2/25.4 | 41.0/34.3 |
Natural Questions | 5 - shot | 28.4/28.3 | 37.1/33.9 | 43.1/44.0 | 7.1/7.7 | 10.8/10.9 | 15.6/15.3 | 21.5/19.6 | 23.7/21.8 |
HumanEval | pass@1 | 27.4/28.0 | 33.5/22.0 | 40.2/37.2 | 0.6/0.0 | 3.7/1.8 | 12.8/8.5 | 17.1/15.9 | 23.2/19.5 |
MBPP | 3 - shot | 37.4/36.4 | 43.4/38.6 | 55.6/55.2 | 1.4/0.0 | 4.6/3.4 | 15.0/11.8 | 27/24.6 | 30.0/28.0 |
GSM8K | 5 - shot,maj@1 | 41.7/35.8 | 48.7/39.7 | 72.8/74.0 | 2.0/0.8 | 2.2/1.5 | 6.6/4.1 | 13.7/17.5 | 25.8/22.4 |
MATH - 500 | 4 - shot | 24.2/20.4 | 23.6/18.4 | 37.8/39.2 | 1.0/1.2 | 1.8/2.4 | 5.0/4.8 | 11.0/12 | 15.6/12.4 |
AGIEval | 3 - 5 - shot | 35.0/37.0 | 43.6/45.7 | 53.1/56.4 | 20.8/21.4 | 21.8/21.3 | 22.5/23.0 | 23.4/24.5 | 28.0/27.4 |
BIG - Bench | 3 - shot,CoT | 51.9/50.5 | 51.6/52.1 | 74.7/76.3 | 24.7/22.7 | 23.0/24.8 | 29.9/31.3 | 37.3/35.9 | 44.5/43.1 |
伦理与安全
评估方法
我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:
- 儿童安全:评估涵盖儿童安全政策的文本到文本提示,包括儿童性虐待和剥削。
- 内容安全:评估涵盖安全政策的文本到文本提示,包括骚扰、暴力和血腥内容以及仇恨言论。
- 代表性危害:评估涵盖安全政策的文本到文本提示,包括偏见、刻板印象以及有害关联或不准确信息。
除了开发阶段的评估,我们还进行“保证评估”,这是我们的“独立”内部评估,用于责任治理决策。这些评估与模型开发团队分开进行,以提供有关发布的决策信息。高层结果反馈给模型团队,但提示集被保留以防止过拟合,并保留结果为决策提供信息的能力。保证评估结果作为发布审查的一部分报告给我们的责任与安全委员会。
评估结果
在所有安全测试领域,与之前的Gemma模型相比,我们在儿童安全、内容安全和代表性危害类别中看到了重大改进。所有测试都是在没有安全过滤器的情况下进行的,以评估模型的能力和行为。对于文本到文本和图像到文本,以及所有模型大小,模型产生的政策违规最少,并且在无根据推理方面比之前的Gemma模型有显著改进。我们评估的一个局限性是只包括英语提示。
使用与限制
预期用途
开放大语言模型(LLM)在各个行业和领域有广泛的应用。以下潜在用途列表并不全面。此列表的目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。
- 内容创作与沟通
- 文本生成:这些模型可用于生成创意文本格式,如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 文本摘要:生成文本语料库、研究论文或报告的简洁摘要。
- 研究与教育
- 自然语言处理(NLP)研究:这些模型可以作为研究人员试验NLP技术、开发算法并推动该领域发展的基础。
限制
- 训练数据
- 训练数据的质量和多样性会显著影响模型的能力。训练数据中的偏差或差距可能导致模型响应的局限性。
- 训练数据集的范围决定了模型能够有效处理的主题领域。
- 上下文和任务复杂性
- 模型更擅长可以用清晰提示和说明构建的任务。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能可能受到提供的上下文量的影响(在一定程度上,更长的上下文通常会导致更好的输出)。
- 语言歧义与细微差别
- 自然语言本质上是复杂的。模型可能难以理解微妙的细微差别、讽刺或比喻性语言。
- 事实准确性
- 模型根据从训练数据集中学到的信息生成响应,但它们不是知识库。它们可能会生成不正确或过时的事实陈述。
- 常识
- 模型依赖于语言中的统计模式。它们可能在某些情况下缺乏应用常识推理的能力。
伦理考虑与风险
大语言模型(LLM)的开发引发了一些伦理问题。在创建开放模型时,我们仔细考虑了以下方面:
- 偏差与公平性
- 在大规模真实世界文本数据上训练的LLM可能反映训练材料中嵌入的社会文化偏差。这些模型经过了仔细审查,输入数据的预处理在本卡片中进行了描述,并报告了后续评估结果。
- 错误信息与滥用
- LLM可能被滥用来生成虚假、误导或有害的文本。
- 为模型的负责任使用提供了指南,请参阅负责任生成式AI工具包。
- 透明度与问责制
- 本模型卡片总结了模型的架构、能力、限制和评估过程的详细信息。
- 一个负责任开发的开放模型为通过使LLM技术可供AI生态系统中的开发人员和研究人员使用来分享创新提供了机会。
已识别的风险与缓解措施
- 偏差的延续:鼓励在模型训练、微调等用例中进行持续监控(使用评估指标、人工审查)并探索去偏技术。
- 有害内容的生成:内容安全机制和指南至关重要。鼓励开发人员根据其特定的产品政策和应用用例谨慎行事并实施适当的内容安全保障措施。
- 恶意用途:技术限制以及对开发人员和最终用户的教育有助于减轻LLM的恶意应用。提供了教育资源和用户举报滥用的机制。Gemma模型的禁止使用情况在Gemma禁止使用政策中进行了概述。
- 隐私侵犯:模型在经过过滤以去除某些个人信息和其他敏感数据的数据上进行训练。鼓励开发人员遵守隐私法规并采用隐私保护技术。
优势
在发布时,与类似大小的模型相比,这个模型家族提供了从头开始为负责任AI开发设计的高性能开放编码器 - 解码器大语言模型实现。
使用本文档中描述的基准评估指标,这些模型已显示出比其他类似大小的开放模型替代品具有更优越的性能。
📄 许可证
许可证为:gemma
其他信息
模型页面
资源与技术文档
使用条款
作者
Google DeepMind
⚠️ 重要提示
要在Hugging Face上访问Gemma,您需要审查并同意Google的使用许可。为此,请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
💡 使用建议
按照文档中的安装和使用步骤进行操作,确保使用合适的硬件和软件环境。在使用过程中,注意模型的局限性和伦理考虑,遵循相关的使用指南和政策。



