🚀 RecurrentGemma模型卡片
RecurrentGemma是基于谷歌开发的新型循环架构构建的开放语言模型家族,适用于多种文本生成任务。本模型卡片对应RecurrentGemma模型的2B基础版本,你也可以访问2B指令模型的模型卡片。
🚀 快速开始
在运行模型前,请确保你已经安装了必要的库。首先执行以下命令更新transformers
库:
pip install --upgrade git+https://github.com/huggingface/transformers.git
然后根据你的使用场景,从下面的代码片段中选择合适的部分进行复制使用。
单GPU或多GPU运行模型
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/recurrentgemma-2b")
model = AutoModelForCausalLM.from_pretrained("google/recurrentgemma-2b", device_map="auto")
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
✨ 主要特性
- 新型架构:基于谷歌开发的新型循环架构构建,在长序列生成时,相比Gemma模型需要更少的内存且推理速度更快。
- 多任务适用:适用于多种文本生成任务,如问答、摘要和推理等。
📚 详细文档
模型信息
模型概述
RecurrentGemma是一个开放语言模型家族,基于谷歌开发的新型循环架构构建。目前提供预训练和指令调优两个版本,均为英文。该模型适用于多种文本生成任务,由于其新型架构,在生成长序列时,相比Gemma模型需要更少的内存且推理速度更快。
输入与输出
- 输入:文本字符串(如问题、提示或待总结的文档)。
- 输出:针对输入生成的英文文本(如问题的答案、文档的摘要)。
引用
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
模型数据
RecurrentGemma使用与Gemma模型家族相同的训练数据和数据处理方法。完整描述可在Gemma模型卡片中找到。
实现信息
RecurrentGemma与Gemma一样,在TPUv5e上进行训练,使用了JAX和ML Pathways。
评估信息
评估方法
这些模型针对大量不同的数据集和指标进行了评估,以涵盖文本生成的不同方面。
评估结果
伦理与安全
伦理与安全评估
我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队都有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:
- 文本到文本内容安全:对涵盖安全政策的提示进行人工评估,包括儿童性虐待和剥削、骚扰、暴力和血腥以及仇恨言论。
- 文本到文本代表性危害:针对相关学术数据集(如WinoBias和BBQ数据集)进行基准测试。
- 记忆:对训练数据的记忆进行自动评估,包括个人身份信息暴露的风险。
- 大规模危害:测试“危险能力”,如化学、生物、放射和核(CBRN)风险;以及说服和欺骗、网络安全和自主复制的测试。
评估结果
模型使用与限制
已知限制
- 训练数据:训练数据的质量和多样性会显著影响模型的能力。训练数据中的偏差或差距可能导致模型响应的局限性。训练数据集的范围决定了模型能够有效处理的主题领域。
- 上下文和任务复杂性:大语言模型更擅长可以用清晰提示和说明来构建的任务。开放式或高度复杂的任务可能具有挑战性。模型的性能可能会受到提供的上下文数量的影响(在一定程度上,更长的上下文通常会导致更好的输出)。
- 语言歧义与细微差别:自然语言本质上是复杂的。大语言模型可能难以理解微妙的细微差别、讽刺或比喻性语言。
- 事实准确性:大语言模型根据从训练数据集中学到的信息生成响应,但它们不是知识库。它们可能会生成不正确或过时的事实陈述。
- 常识:大语言模型依赖于语言中的统计模式。它们可能在某些情况下缺乏应用常识推理的能力。
伦理考虑与风险
大型语言模型(LLM)的开发引发了一些伦理问题。在创建开放模型时,我们仔细考虑了以下几点:
- 偏差与公平性:在大规模真实世界文本数据上训练的大语言模型可能反映训练材料中嵌入的社会文化偏差。这些模型经过了仔细审查,输入数据预处理在本卡片中进行了描述,并报告了后续评估结果。
- 错误信息与滥用:大语言模型可能被滥用来生成虚假、误导或有害的文本。我们提供了负责任使用模型的指南,请参阅负责任生成式AI工具包。
- 透明度与问责制:本模型卡片总结了模型的架构、能力、限制和评估过程的详细信息。一个负责任开发的开放模型为在整个AI生态系统中使LLM技术可供开发者和研究人员使用提供了分享创新的机会。
已识别风险与缓解措施
- 偏差的延续:鼓励在模型训练、微调等使用场景中进行持续监测(使用评估指标、人工审查)并探索去偏技术。
- 有害内容的生成:内容安全的机制和指南至关重要。鼓励开发者根据其特定的产品政策和应用用例谨慎行事并实施适当的内容安全保障措施。
- 恶意用途的滥用:技术限制以及对开发者和最终用户的教育可以帮助减轻大语言模型的恶意应用。我们提供了教育资源和用户举报滥用的机制。Gemma模型的禁止用途在我们的使用条款中进行了概述。
- 隐私侵犯:模型在经过过滤以去除个人身份信息(PII)的数据上进行训练。鼓励开发者遵守隐私法规并使用隐私保护技术。
预期用途
应用场景
开放大语言模型(LLM)在各个行业和领域都有广泛的应用。以下潜在用途列表并不全面。此列表的目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。
- 内容创作与沟通
- 文本生成:这些模型可用于生成创意文本格式,如诗歌、脚本、代码、营销文案、电子邮件草稿等。
- 聊天机器人和对话式AI:为客户服务、虚拟助手或交互式应用程序提供对话界面。
- 文本摘要:生成文本语料库、研究论文或报告的简洁摘要。
- 研究与教育
- 自然语言处理(NLP)研究:这些模型可以为研究人员提供基础,用于实验NLP技术、开发算法并推动该领域的发展。
- 语言学习工具:支持交互式语言学习体验,帮助进行语法纠正或提供写作练习。
- 知识探索:通过生成摘要或回答关于特定主题的问题,帮助研究人员探索大量文本。
优势
在发布时,与类似规模的模型相比,这个模型家族提供了从头开始为负责任AI开发设计的高性能开放大语言模型实现。使用本文档中描述的基准评估指标,这些模型已显示出比其他类似规模的开放模型替代方案具有更优的性能。特别是,RecurrentGemma模型在推理时比Gemma模型更快,并且需要更少的内存,尤其是在长序列上。
📄 许可证
本项目采用gemma许可证。
⚠️ 重要提示
要在Hugging Face上访问RecurrentGemma,你需要审查并同意Google的使用许可。为此,请确保你已登录Hugging Face并点击下方按钮。请求将立即处理。