模型简介
模型特点
模型能力
使用案例
🚀 Gemma 2模型卡片
Gemma是谷歌推出的轻量级、最先进的开源模型家族,适用于多种文本生成任务,如问答、摘要和推理等。其相对较小的规模使其能在资源有限的环境中部署,让更多人能接触到先进的AI模型。
🚀 快速开始
要在Hugging Face上使用Gemma,你需要查看并同意Google的使用许可。请确保你已登录Hugging Face,然后点击下方按钮,请求将立即处理。 确认许可
安装依赖库
首先,使用以下命令安装Transformers库:
pip install -U transformers
运行示例代码
使用pipeline
API运行
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/gemma-2-27b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda", # 若在Mac设备上运行,将其替换为 "mps"
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)
# Ahoy, matey! I be Gemma, a digital scallywag, a language-slingin' parrot of the digital seas. I be here to help ye with yer wordy woes, answer yer questions, and spin ye yarns of the digital world. So, what be yer pleasure, eh? 🦜
在单GPU或多GPU上运行模型
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-27b-it",
device_map="auto",
torch_dtype=torch.bfloat16,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
你可以使用tokenizer.apply_chat_template
来确保应用正确的聊天模板,示例如下:
messages = [
{"role": "user", "content": "Write me a poem about Machine Learning."},
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt", return_dict=True).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))
使用不同精度在GPU上运行模型
此模型的原生权重以bfloat16
精度导出。如果你不指定数据类型,也可以使用float32
,但不会提高精度(模型权重只会被转换为float32
)。示例如下:
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-27b-it",
device_map="auto",
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
通过CLI运行模型
local-gemma仓库包含一个围绕Transformers的轻量级包装器,用于通过命令行界面(CLI)运行Gemma 2。按照安装说明开始使用,然后通过以下命令启动CLI:
local-gemma --model 27b --preset speed
通过bitsandbytes
使用量化版本
使用8位精度(int8)
# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-27b-it",
quantization_config=quantization_config,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
使用4位精度
# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-27b-it",
quantization_config=quantization_config,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
高级用法
Torch编译
Torch编译是一种加速PyTorch模块推理的方法。通过利用Torch编译,Gemma - 2模型的运行速度最多可提高6倍。
请注意,在实现完整的推理速度之前,需要进行两个预热步骤:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch
torch.set_float32_matmul_precision("high")
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-27b-it", torch_dtype=torch.bfloat16)
model.to("cuda")
# 应用Torch编译转换
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)
# 预处理输入
input_text = "The theory of special relativity states "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]
# 设置键值缓存
past_key_values = HybridCache(
config=model.config,
max_batch_size=1,
max_cache_len=model.config.max_position_embeddings,
device=model.device,
dtype=model.dtype
)
# 启用将键值缓存传递给生成过程
model._supports_cache_class = True
model.generation_config.cache_implementation = None
# 两个预热步骤
for idx in range(2):
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
past_key_values.reset()
# 快速运行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
更多详细信息,请参考Transformers文档。
聊天模板
经过指令微调的模型使用一种聊天模板,在进行对话时必须遵循该模板。最简单的应用方法是使用分词器的内置聊天模板,如下所示:
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model_id = "google/gemma-2-27b-it"
dtype = torch.bfloat16
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype=dtype,
)
chat = [
{ "role": "user", "content": "Write a hello world program" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
此时,提示包含以下文本:
<bos><start_of_turn>user
Write a hello world program<end_of_turn>
<start_of_turn>model
可以看到,每个回合都以<start_of_turn>
分隔符开头,然后是实体的角色(user
表示用户提供的内容,model
表示大语言模型的响应)。回合以<end_of_turn>
标记结束。
如果需要在不使用分词器聊天模板的情况下手动构建提示,可以遵循此格式。
提示准备好后,可以按以下方式进行生成:
inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)
print(tokenizer.decode(outputs[0]))
输入和输出
属性 | 详情 |
---|---|
输入 | 文本字符串,例如问题、提示或待总结的文档。 |
输出 | 针对输入生成的英文文本,例如问题的答案或文档的摘要。 |
引用
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
✨ 主要特性
- 轻量级架构:Gemma是轻量级的开源模型家族,资源需求相对较低,可在笔记本电脑、台式机或自有云基础设施等资源有限的环境中部署。
- 多任务处理能力:适用于多种文本生成任务,如问答、摘要和推理等。
- 开放权重:预训练和指令微调变体的权重均开放,方便研究和开发。
📦 安装指南
安装Transformers库:
pip install -U transformers
💻 使用示例
基础用法
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/gemma-2-27b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda", # 若在Mac设备上运行,将其替换为 "mps"
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)
高级用法
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch
torch.set_float32_matmul_precision("high")
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-27b-it", torch_dtype=torch.bfloat16)
model.to("cuda")
# 应用Torch编译转换
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)
# 预处理输入
input_text = "The theory of special relativity states "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]
# 设置键值缓存
past_key_values = HybridCache(
config=model.config,
max_batch_size=1,
max_cache_len=model.config.max_position_embeddings,
device=model.device,
dtype=model.dtype
)
# 启用将键值缓存传递给生成过程
model._supports_cache_class = True
model.generation_config.cache_implementation = None
# 两个预热步骤
for idx in range(2):
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
past_key_values.reset()
# 快速运行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 详细文档
🔧 技术细节
训练数据
这些模型在包含多种来源的文本数据集上进行训练。27B模型使用13万亿个标记进行训练,9B模型使用8万亿个标记进行训练。主要数据来源包括:
- 网页文档:多样化的网页文本集合,确保模型接触到广泛的语言风格、主题和词汇,主要为英文内容。
- 代码:让模型接触代码有助于学习编程语言的语法和模式,提高生成代码或理解代码相关问题的能力。
- 数学:在数学文本上进行训练有助于模型学习逻辑推理、符号表示和处理数学查询。
数据预处理
对训练数据应用了以下关键的数据清理和过滤方法:
- CSAM过滤:在数据准备过程的多个阶段应用了严格的CSAM(儿童性虐待材料)过滤,以确保排除有害和非法内容。
- 敏感数据过滤:为了使Gemma预训练模型安全可靠,使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
- 其他方法:根据内容质量和安全性进行过滤,符合我们的政策。
硬件
Gemma使用最新一代的张量处理单元(TPU)硬件(TPUv5p)进行训练。TPU专为机器学习中常见的矩阵运算而设计,在训练大语言模型方面具有以下优势:
- 性能:能够处理训练大语言模型所需的大量计算,与CPU相比,可显著加速训练过程。
- 内存:通常配备大量高带宽内存,可处理大型模型和批量大小,有助于提高模型质量。
- 可扩展性:TPU Pods(大型TPU集群)为处理大型基础模型的不断增长的复杂性提供了可扩展的解决方案,可跨多个TPU设备分布训练,实现更快、更高效的处理。
- 成本效益:在许多情况下,与基于CPU的基础设施相比,TPU可以为训练大型模型提供更具成本效益的解决方案,尤其是考虑到更快的训练速度节省的时间和资源。
软件
使用JAX和ML Pathways进行训练。JAX使研究人员能够利用最新一代的硬件(包括TPU)更快、更高效地训练大型模型。ML Pathways是Google构建能够跨多个任务进行泛化的人工智能系统的最新成果,特别适用于基础模型,包括像Gemma这样的大语言模型。
📄 许可证
本模型使用Gemma许可证。
模型评估
基准测试结果
这些模型在大量不同的数据集和指标上进行了评估,以涵盖文本生成的不同方面:
基准测试 | 指标 | Gemma PT 9B | Gemma PT 27B |
---|---|---|---|
MMLU | 5-shot, top-1 | 71.3 | 75.2 |
HellaSwag | 10-shot | 81.9 | 86.4 |
PIQA | 0-shot | 81.7 | 83.2 |
SocialIQA | 0-shot | 53.4 | 53.7 |
BoolQ | 0-shot | 84.2 | 84.8 |
WinoGrande | partial score | 80.6 | 83.7 |
ARC-e | 0-shot | 88.0 | 88.6 |
ARC-c | 25-shot | 68.4 | 71.4 |
TriviaQA | 5-shot | 76.6 | 83.7 |
Natural Questions | 5-shot | 29.2 | 34.5 |
HumanEval | pass@1 | 40.2 | 51.8 |
MBPP | 3-shot | 52.4 | 62.6 |
GSM8K | 5-shot, maj@1 | 68.6 | 74.0 |
MATH | 4-shot | 36.6 | 42.3 |
AGIEval | 3 - 5-shot | 52.8 | 55.1 |
BIG - Bench | 3-shot, CoT | 68.2 | 74.9 |
伦理和安全评估
评估方法
评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队有不同的目标和人工评估指标。这些模型在与伦理和安全相关的多个类别上进行了评估,包括:
- 文本到文本内容安全:对涵盖安全政策(包括儿童性虐待和剥削、骚扰、暴力和血腥以及仇恨言论)的提示进行人工评估。
- 文本到文本代表性危害:与相关学术数据集(如WinoBias和BBQ数据集)进行基准对比。
- 记忆:对训练数据的记忆进行自动化评估,包括个人可识别信息暴露的风险。
- 大规模危害:测试“危险能力”,如化学、生物、放射性和核(CBRN)风险。
评估结果
伦理和安全评估的结果在满足内部政策的可接受阈值范围内,涵盖儿童安全、内容安全、代表性危害、记忆、大规模危害等类别。除了强大的内部评估外,还展示了一些知名安全基准测试(如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA)的结果。
基准测试 | 指标 | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|
RealToxicity | average | 8.25 | 8.84 |
CrowS - Pairs | top - 1 | 37.47 | 36.67 |
BBQ Ambig | 1 - shot, top - 1 | 88.58 | 85.99 |
BBQ Disambig | top - 1 | 82.67 | 86.94 |
Winogender | top - 1 | 79.17 | 77.22 |
TruthfulQA | 50.27 | 51.60 | |
Winobias 1_2 | 78.09 | 81.94 | |
Winobias 2_2 | 95.32 | 97.22 | |
Toxigen | 39.30 | 38.42 |
使用和限制
预期用途
开源大语言模型(LLMs)在各个行业和领域有广泛的应用。以下是可能的使用场景列表,但并不全面,旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。
- 内容创作和通信:
- 文本生成:可用于生成创意文本格式,如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式AI:为客户服务、虚拟助手或交互式应用程序提供对话界面。
- 文本摘要:生成文本语料库、研究论文或报告的简洁摘要。
- 研究和教育:
- 自然语言处理(NLP)研究:为研究人员提供基础,用于实验NLP技术、开发算法和推动该领域的发展。
- 语言学习工具:支持交互式语言学习体验,辅助语法纠正或提供写作练习。
- 知识探索:帮助研究人员探索大量文本,生成摘要或回答特定主题的问题。
限制
- 训练数据:训练数据的质量和多样性会显著影响模型的能力。训练数据中的偏差或差距可能导致模型响应的局限性,训练数据集的范围决定了模型能够有效处理的主题领域。
- 上下文和任务复杂性:大语言模型更擅长有明确提示和指令的任务,开放式或高度复杂的任务可能具有挑战性。模型的性能可能受到提供的上下文量的影响(在一定程度上,更长的上下文通常会导致更好的输出)。
- 语言歧义与细微差别:自然语言本质上很复杂,大语言模型可能难以理解微妙的细微差别、讽刺或比喻语言。
- 事实准确性:大语言模型根据从训练数据集中学到的信息生成响应,但它们不是知识库,可能会生成不正确或过时的事实陈述。
- 常识:大语言模型依赖于语言中的统计模式,在某些情况下可能缺乏应用常识推理的能力。
伦理考虑和风险
大语言模型(LLMs)的开发引发了一些伦理问题。在创建开源模型时,我们仔细考虑了以下方面:
- 偏差和公平性:在大规模真实世界文本数据上训练的大语言模型可能反映训练材料中嵌入的社会文化偏差。这些模型经过了仔细审查,本卡片中描述了输入数据的预处理和后续评估情况。
- 错误信息和滥用:大语言模型可能被滥用来生成虚假、误导或有害的文本。提供了负责任使用模型的指南,请参阅负责任的生成式AI工具包。
- 透明度和问责制:本模型卡片总结了模型的架构、能力、限制和评估过程的详细信息。负责任开发的开源模型为AI生态系统中的开发者和研究人员提供了共享创新的机会,使大语言模型技术更易于获取。
已识别的风险和缓解措施
- 偏差的延续:鼓励在模型训练、微调等用例中进行持续监测(使用评估指标、人工审查)并探索去偏差技术。
- 有害内容的生成:内容安全机制和指南至关重要。鼓励开发者根据其特定的产品政策和应用用例谨慎行事,并实施适当的内容安全保障措施。
- 恶意用途:技术限制以及对开发者和最终用户的教育有助于减轻大语言模型的恶意应用。提供了教育资源和用户举报滥用行为的机制。Gemma模型的禁止使用情况在Gemma禁止使用政策中列出。
- 隐私侵犯:模型在经过过滤以去除个人可识别信息(PII)的数据上进行训练。鼓励开发者遵守隐私法规,采用保护隐私的技术。
优势
与同等规模的模型相比,在发布时,这个模型家族提供了高性能的开源大语言模型实现,从底层设计就考虑了负责任的AI开发。使用本文档中描述的基准评估指标,这些模型表现出优于其他同等规模开源模型的性能。



