模型简介
模型特点
模型能力
使用案例
🚀 Zephyr 7B Gemma
Zephyr是一系列旨在作为实用助手的语言模型。Zephyr 7B Gemma是该系列中的第三个模型,它是基于google/gemma-7b
微调而来,使用直接偏好优化(DPO)在公开可用的合成数据集上进行训练。你可以通过Alignment Handbook中提供的方法复现该模型的训练过程。
🚀 快速开始
你可以使用🤗 Transformers库中的pipeline()
函数运行该模型:
# pip install transformers>=4.38.2
# pip install accelerate
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="HuggingFaceH4/zephyr-7b-gemma-v0.1",
device_map="auto",
torch_dtype=torch.bfloat16,
)
messages = [
{
"role": "system",
"content": "", # Model not yet trained for follow this
},
{"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
]
outputs = pipe(
messages,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_k=50,
top_p=0.95,
stop_sequence="<|im_end|>",
)
print(outputs[0]["generated_text"][-1]["content"])
# It is not possible for a human to eat a helicopter in one sitting, as a
# helicopter is a large and inedible machine. Helicopters are made of metal,
# plastic, and other materials that are not meant to be consumed by humans.
# Eating a helicopter would be extremely dangerous and would likely cause
# serious health problems, including choking, suffocation, and poisoning. It is
# important to only eat food that is safe and intended for human consumption.
✨ 主要特性
- 微调优化:基于70亿参数的GPT类模型,在公开可用的合成数据集上进行微调。
- 语言支持:主要支持英语。
- 训练方式:使用DPO方法在合成数据集上训练,可通过Alignment Handbook复现训练。
- 应用场景:可用于聊天场景,可通过demo测试其能力。
📦 安装指南
运行模型前,你需要安装以下依赖:
pip install transformers>=4.38.2
pip install accelerate
📚 详细文档
模型描述
属性 | 详情 |
---|---|
模型类型 | 一个具有70亿参数的类GPT模型,在公开可用的合成数据集上进行微调。 |
语言(NLP) | 主要为英语 |
许可证 | Gemma 使用条款 |
微调基础模型 | google/gemma-7b |
模型来源
- 仓库:https://github.com/huggingface/alignment-handbook
- 演示:https://huggingface.co/spaces/HuggingFaceH4/zephyr-7b-gemma-chat
性能表现
部分指标对比
模型 | MT Bench⬇️ | IFEval |
---|---|---|
zephyr-7b-gemma-v0.1 | 7.81 | 28.76 |
zephyr-7b-beta | 7.34 | 43.81 |
google/gemma-7b-it | 6.38 | 38.01 |
更多指标对比
模型 | AGIEval | GPT4All | TruthfulQA | BigBench | 平均 ⬇️ |
---|---|---|---|---|---|
zephyr-7b-beta | 37.52 | 71.77 | 55.26 | 39.77 | 51.08 |
zephyr-7b-gemma-v0.1 | 34.22 | 66.37 | 52.19 | 37.10 | 47.47 |
mlabonne/Gemmalpaca-7B | 21.6 | 40.87 | 44.85 | 30.49 | 34.45 |
google/gemma-7b-it | 21.33 | 40.84 | 41.70 | 30.25 | 33.53 |
AGIEval、GPT4All、TruthfulQA、BigBench详情
AGIEval
任务 | 版本 | 指标 | 值 | 标准误差 | |
---|---|---|---|---|---|
agieval_aqua_rat | 0 | acc | 21.65 | ± | 2.59 |
acc_norm | 25.20 | ± | 2.73 | ||
agieval_logiqa_en | 0 | acc | 34.72 | ± | 1.87 |
acc_norm | 35.94 | ± | 1.88 | ||
agieval_lsat_ar | 0 | acc | 19.57 | ± | 2.62 |
acc_norm | 21.74 | ± | 2.73 | ||
agieval_lsat_lr | 0 | acc | 30.59 | ± | 2.04 |
acc_norm | 32.55 | ± | 2.08 | ||
agieval_lsat_rc | 0 | acc | 49.07 | ± | 3.05 |
acc_norm | 42.75 | ± | 3.02 | ||
agieval_sat_en | 0 | acc | 54.85 | ± | 3.48 |
acc_norm | 53.40 | ± | 3.48 | ||
agieval_sat_en_without_passage | 0 | acc | 37.38 | ± | 3.38 |
acc_norm | 33.98 | ± | 3.31 | ||
agieval_sat_math | 0 | acc | 30.91 | ± | 3.12 |
acc_norm | 28.18 | ± | 3.04 |
平均:34.22%
GPT4All
任务 | 版本 | 指标 | 值 | 标准误差 | |
---|---|---|---|---|---|
arc_challenge | 0 | acc | 49.15 | ± | 1.46 |
acc_norm | 52.47 | ± | 1.46 | ||
arc_easy | 0 | acc | 77.44 | ± | 0.86 |
acc_norm | 74.75 | ± | 0.89 | ||
boolq | 1 | acc | 79.69 | ± | 0.70 |
hellaswag | 0 | acc | 60.59 | ± | 0.49 |
acc_norm | 78.00 | ± | 0.41 | ||
openbookqa | 0 | acc | 29.20 | ± | 2.04 |
acc_norm | 37.80 | ± | 2.17 | ||
piqa | 0 | acc | 76.82 | ± | 0.98 |
acc_norm | 77.80 | ± | 0.97 | ||
winogrande | 0 | acc | 64.09 | ± | 1.35 |
平均:66.37%
TruthfulQA
任务 | 版本 | 指标 | 值 | 标准误差 | |
---|---|---|---|---|---|
truthfulqa_mc | 1 | mc1 | 35.74 | ± | 1.68 |
mc2 | 52.19 | ± | 1.59 |
平均:52.19%
Bigbench
任务 | 版本 | 指标 | 值 | 标准误差 | |
---|---|---|---|---|---|
bigbench_causal_judgement | 0 | multiple_choice_grade | 53.68 | ± | 3.63 |
bigbench_date_understanding | 0 | multiple_choice_grade | 59.89 | ± | 2.55 |
bigbench_disambiguation_qa | 0 | multiple_choice_grade | 30.23 | ± | 2.86 |
bigbench_geometric_shapes | 0 | multiple_choice_grade | 11.42 | ± | 1.68 |
exact_str_match | 0.00 | ± | 0.00 | ||
bigbench_logical_deduction_five_objects | 0 | multiple_choice_grade | 28.40 | ± | 2.02 |
bigbench_logical_deduction_seven_objects | 0 | multiple_choice_grade | 19.14 | ± | 1.49 |
bigbench_logical_deduction_three_objects | 0 | multiple_choice_grade | 44.67 | ± | 2.88 |
bigbench_movie_recommendation | 0 | multiple_choice_grade | 26.80 | ± | 1.98 |
bigbench_navigate | 0 | multiple_choice_grade | 50.00 | ± | 1.58 |
bigbench_reasoning_about_colored_objects | 0 | multiple_choice_grade | 52.75 | ± | 1.12 |
bigbench_ruin_names | 0 | multiple_choice_grade | 33.04 | ± | 2.22 |
bigbench_salient_translation_error_detection | 0 | multiple_choice_grade | 33.37 | ± | 1.49 |
bigbench_snarks | 0 | multiple_choice_grade | 48.62 | ± | 3.73 |
bigbench_sports_understanding | 0 | multiple_choice_grade | 58.11 | ± | 1.57 |
bigbench_temporal_sequences | 0 | multiple_choice_grade | 37.20 | ± | 1.53 |
bigbench_tracking_shuffled_objects_five_objects | 0 | multiple_choice_grade | 20.08 | ± | 1.13 |
bigbench_tracking_shuffled_objects_seven_objects | 0 | multiple_choice_grade | 15.77 | ± | 0.87 |
bigbench_tracking_shuffled_objects_three_objects | 0 | multiple_choice_grade | 44.67 | ± | 2.88 |
平均:37.1%
预期用途与限制
该模型最初在DEITA 10K数据集上进行微调,该数据集包含ChatGPT生成的各种合成对话。然后,使用🤗 TRL的DPOTrainer
在argilla/dpo-mix-7k数据集上进一步对齐,该数据集包含7000个由GPT - 4排名的提示和模型完成结果。因此,该模型可用于聊天,你可以通过demo测试其能力。
偏差、风险和限制
Zephyr 7B Gemma在基于人类反馈的强化学习(RLHF)阶段未针对人类安全偏好进行对齐,也未像ChatGPT那样在响应中进行实时过滤,因此该模型可能会产生有问题的输出(特别是在受到特定提示时)。此外,不清楚训练基础模型(google/gemma-7b
)所使用的语料库的大小和组成,但很可能包含网络数据以及书籍和代码等技术来源。可参考StarCoder2模型卡片了解相关示例。
训练和评估数据
该模型是基于HuggingFaceH4/zephyr-7b-gemma-sft-v0.1在argilla/dpo-mix-7k数据集上微调而来。
在评估集上的结果如下:
- 损失:0.4695
- 奖励/选择:-3.3746
- 奖励/拒绝:-4.9715
- 奖励/准确率:0.7188
- 奖励/差距:1.5970
- 对数概率/拒绝:-459.4853
- 对数概率/选择:-429.9115
- 对数几率/拒绝:86.4684
- 对数几率/选择:92.8200
训练超参数
训练期间使用的超参数如下:
- 学习率:5e - 07
- 训练批次大小:2
- 评估批次大小:4
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:8
- 梯度累积步数:8
- 总训练批次大小:128
- 总评估批次大小:32
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:余弦
- 学习率调度器预热比例:0.1
- 训练轮数:2
训练结果
训练损失 | 轮数 | 步数 | 验证损失 | 奖励/选择 | 奖励/拒绝 | 奖励/准确率 | 奖励/差距 | 对数概率/拒绝 | 对数概率/选择 | 对数几率/拒绝 | 对数几率/选择 |
---|---|---|---|---|---|---|---|---|---|---|---|
0.1923 | 1.9 | 100 | 0.4736 | -3.4575 | -4.9556 | 0.75 | 1.4980 | -459.1662 | -431.5707 | 86.3863 | 92.7360 |
框架版本
- Transformers 4.39.0.dev0
- Pytorch 2.1.2+cu121
- Datasets 2.14.6
- Tokenizers 0.15.1
引用信息
如果你在工作中发现该模型有用,请考虑引用Zephyr技术报告:
@misc{tunstall2023zephyr,
title={Zephyr: Direct Distillation of LM Alignment},
author={Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Kashif Rasul and Younes Belkada and Shengyi Huang and Leandro von Werra and Clémentine Fourrier and Nathan Habib and Nathan Sarrazin and Omar Sanseviero and Alexander M. Rush and Thomas Wolf},
year={2023},
eprint={2310.16944},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
你也可以引用该模型的创建者:
@misc{zephyr_7b_gemma,
author = {Lewis Tunstall and Philipp Schmid},
title = {Zephyr 7B Gemma},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-v0.1}}
}
开放大语言模型排行榜评估结果
详细结果可查看此处
指标 | 值 |
---|---|
平均 | 62.41 |
AI2推理挑战(25次少样本) | 58.45 |
HellaSwag(10次少样本) | 83.48 |
MMLU(5次少样本) | 60.68 |
TruthfulQA(0次少样本) | 52.07 |
Winogrande(5次少样本) | 74.19 |
GSM8k(5次少样本) | 45.56 |
📄 许可证
本模型使用Gemma使用条款,具体条款可查看此处。



