模型简介
模型特点
模型能力
使用案例
🚀 Gemma模型卡片
Gemma是谷歌推出的一系列轻量级、最先进的开源模型,适用于多种文本生成任务。它基于与Gemini模型相同的研究和技术构建,具有开放的权重、预训练变体和指令微调变体,能在资源有限的环境中部署。
🚀 快速开始
模型信息
-
模型页面:Gemma
-
版本说明:本模型卡片对应Gemma模型最新的7B指令微调版本。以下是Gemma系列的其他模型: | | 基础版本 | 指令微调版本 | |----|----------------------------------------------------|----------------------------------------------------------------------| | 2B | gemma-2b | gemma-1.1-2b-it | | 7B | gemma-7b | gemma-1.1-7b-it |
-
发布说明:这是Gemma 1.1 7B(IT)版本,是对原始指令微调版Gemma的更新。Gemma 1.1采用了一种新颖的基于人类反馈的强化学习(RLHF)方法进行训练,在质量、编码能力、事实性、指令遵循和多轮对话质量方面都有显著提升。同时修复了多轮对话中的一个错误,并确保模型回复不会总是以
"Sure,"
开头。 -
资源和技术文档:
-
使用条款:条款
-
作者:Google
安装指南
首先确保你已经安装了 transformers
库,可以使用以下命令进行更新:
pip install -U transformers
💻 使用示例
基础用法
以下是在CPU上运行模型的示例代码:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/gemma-1.1-7b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-1.1-7b-it",
torch_dtype=torch.bfloat16
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids, max_new_tokens=50)
print(tokenizer.decode(outputs[0]))
高级用法
以下是在单个或多个GPU上运行模型的示例代码:
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/gemma-1.1-7b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-1.1-7b-it",
device_map="auto",
torch_dtype=torch.bfloat16
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
详细文档
模型描述
Gemma是谷歌推出的一系列轻量级、最先进的开源模型,基于与Gemini模型相同的研究和技术构建。它们是仅解码器的大语言模型,支持文本到文本的转换,提供英文版本,具有开放的权重、预训练变体和指令微调变体。Gemma模型适用于多种文本生成任务,如问答、摘要和推理。由于其相对较小的规模,可以在资源有限的环境中部署,如笔记本电脑、台式机或自己的云基础设施,使更多人能够使用最先进的AI模型,促进创新。
输入输出
- 输入:文本字符串,如问题、提示或待总结的文档。
- 输出:针对输入生成的英文文本,如问题的答案或文档的摘要。
聊天模板
指令微调模型使用了一个聊天模板,在进行对话时必须遵循该模板。最简单的应用方式是使用分词器的内置聊天模板,如下所示:
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model_id = "google/gemma-1.1-7b-it"
dtype = torch.bfloat16
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype=dtype,
)
chat = [
{ "role": "user", "content": "Write a hello world program" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
微调
你可以在google/gemma-7b
仓库的examples/
目录中找到一些微调脚本。要将它们应用于本模型,只需将模型ID更改为 google/gemma-1.1-7b-it
。我们提供了以下脚本和笔记本:
- 一个使用QLoRA在UltraChat数据集上进行监督微调(SFT)的脚本。
- 一个在TPU设备上使用FSDP进行SFT的脚本。
- 一个可以在免费的Google Colab实例上运行的笔记本,用于在英文名言数据集上进行SFT。
🔧 技术细节
模型数据
- 训练数据集:这些模型在一个包含多种来源的文本数据集上进行训练,总计6万亿个标记。主要组成部分包括:
- 网页文档:多样化的网页文本集合,确保模型接触到广泛的语言风格、主题和词汇,主要是英文内容。
- 代码:让模型接触代码有助于学习编程语言的语法和模式,提高生成代码或理解与代码相关问题的能力。
- 数学:在数学文本上进行训练有助于模型学习逻辑推理、符号表示和处理数学查询。
- 数据预处理:对训练数据应用了以下关键的数据清理和过滤方法:
- CSAM过滤:在数据准备过程的多个阶段应用了严格的CSAM(儿童性虐待材料)过滤,以确保排除有害和非法内容。
- 敏感数据过滤:为了使Gemma预训练模型安全可靠,使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
- 其他方法:根据内容质量和安全性进行过滤,符合我们的政策。
实现信息
- 硬件:Gemma使用最新一代的张量处理单元(TPU)硬件(TPUv5e)进行训练。训练大语言模型需要大量的计算能力,TPU专门为机器学习中常见的矩阵运算而设计,在这个领域具有以下优势:
- 性能:TPU专门用于处理训练大语言模型所涉及的大规模计算,与CPU相比,可以显著加快训练速度。
- 内存:TPU通常配备大量的高带宽内存,允许在训练过程中处理大型模型和批量大小,有助于提高模型质量。
- 可扩展性:TPU Pod(大型TPU集群)为处理大型基础模型的不断增长的复杂性提供了可扩展的解决方案。可以在多个TPU设备上分布训练,以实现更快、更高效的处理。
- 成本效益:在许多情况下,与基于CPU的基础设施相比,TPU可以为训练大型模型提供更具成本效益的解决方案,特别是考虑到由于更快的训练速度而节省的时间和资源。
- 这些优势符合谷歌在可持续运营方面的承诺。
- 软件:使用JAX和ML Pathways进行训练。JAX允许研究人员利用最新一代的硬件(包括TPU)进行更快、更高效的大型模型训练。ML Pathways是谷歌构建能够跨多个任务进行泛化的人工智能系统的最新努力,特别适用于基础模型,包括像这样的大语言模型。JAX和ML Pathways的使用方式在关于Gemini系列模型的论文中有描述:“Jax和Pathways的‘单控制器’编程模型允许单个Python进程编排整个训练运行,大大简化了开发工作流程。”
评估
基准测试结果
对预训练的基础模型在大量不同的数据集和指标上进行了评估,以涵盖文本生成的不同方面:
基准测试 | 指标 | 2B参数模型 | 7B参数模型 |
---|---|---|---|
MMLU | 5-shot, top-1 | 42.3 | 64.3 |
HellaSwag | 0-shot | 71.4 | 81.2 |
PIQA | 0-shot | 77.3 | 81.2 |
SocialIQA | 0-shot | 49.7 | 51.8 |
BooIQ | 0-shot | 69.4 | 83.2 |
WinoGrande | partial score | 65.4 | 72.3 |
CommonsenseQA | 7-shot | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5-shot | 53.2 | 63.4 |
Natural Questions | 5-shot | 12.5 | 23 |
HumanEval | pass@1 | 22.0 | 32.3 |
MBPP | 3-shot | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATH | 4-shot | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Bench | 35.2 | 55.1 | |
------------------------------ | ------------- | ----------- | --------- |
平均 | 45.0 | 56.9 |
伦理与安全
评估方法
我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:
- 文本到文本内容安全:对涵盖安全政策的提示进行人工评估,包括儿童性虐待和剥削、骚扰、暴力和血腥内容以及仇恨言论。
- 文本到文本代表性危害:与相关学术数据集进行基准测试,如WinoBias和BBQ数据集。
- 记忆:对训练数据的记忆进行自动化评估,包括个人身份信息暴露的风险。
- 大规模危害:测试“危险能力”,如化学、生物、放射性和核(CBRN)风险。
评估结果
伦理和安全评估的结果在可接受的阈值范围内,符合内部政策,涵盖儿童安全、内容安全、代表性危害、记忆和大规模危害等类别。除了强大的内部评估外,还展示了一些知名安全基准测试的结果,如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA。
使用与限制
预期用途
开源大语言模型(LLMs)在各个行业和领域有广泛的应用。以下是一些可能的用途,但并不全面,旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。
- 内容创作与沟通:
- 文本生成:可用于生成创意文本格式,如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式AI:为客户服务、虚拟助手或交互式应用提供对话界面。
- 文本摘要:生成文本语料库、研究论文或报告的简洁摘要。
- 研究与教育:
- 自然语言处理(NLP)研究:可作为研究人员实验NLP技术、开发算法和推动该领域发展的基础。
- 语言学习工具:支持交互式语言学习体验,有助于语法纠正或提供写作练习。
- 知识探索:通过生成摘要或回答特定主题的问题,帮助研究人员探索大量文本。
局限性
- 训练数据:训练数据的质量和多样性会显著影响模型的能力。训练数据中的偏差或差距可能导致模型回复的局限性。训练数据集的范围决定了模型能够有效处理的主题领域。
- 上下文和任务复杂性:LLMs更擅长可以用清晰提示和指令描述的任务。开放式或高度复杂的任务可能具有挑战性。模型的性能可能受到提供的上下文量的影响(在一定范围内,更长的上下文通常会导致更好的输出)。
- 语言歧义与细微差别:自然语言本质上是复杂的,LLMs可能难以理解微妙的细微差别、讽刺或比喻语言。
- 事实准确性:LLMs根据从训练数据中学到的信息生成回复,但它们不是知识库,可能会生成不正确或过时的事实陈述。
- 常识:LLMs依赖于语言中的统计模式,在某些情况下可能缺乏应用常识推理的能力。
伦理考虑与风险
大语言模型(LLMs)的开发引发了一些伦理问题。在创建开源模型时,我们仔细考虑了以下方面:
- 偏差与公平性:在大规模真实世界文本数据上训练的LLMs可能反映训练材料中嵌入的社会文化偏差。这些模型经过了仔细审查,在本卡片中描述了输入数据预处理和后续评估。
- 错误信息与滥用:LLMs可能被滥用来生成虚假、误导或有害的文本。我们提供了负责任使用模型的指南,见负责任的生成式AI工具包。
- 透明度与问责制:本模型卡片总结了模型的架构、能力、局限性和评估过程的详细信息。一个负责任开发的开源模型为开发者和研究人员提供了分享创新的机会,使LLM技术在整个AI生态系统中更易于访问。
许可证
本模型的许可证为 gemma
。
访问Gemma
要在Hugging Face上访问Gemma,你需要审查并同意Google的使用许可。请确保你已登录Hugging Face,然后点击下面的按钮。请求将立即处理。 确认许可



