模型概述
模型特點
模型能力
使用案例
🚀 Zephyr 7B Gemma
Zephyr是一系列旨在作為實用助手的語言模型。Zephyr 7B Gemma是該系列中的第三個模型,它是基於google/gemma-7b
微調而來,使用直接偏好優化(DPO)在公開可用的合成數據集上進行訓練。你可以通過Alignment Handbook中提供的方法復現該模型的訓練過程。
🚀 快速開始
你可以使用🤗 Transformers庫中的pipeline()
函數運行該模型:
# pip install transformers>=4.38.2
# pip install accelerate
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="HuggingFaceH4/zephyr-7b-gemma-v0.1",
device_map="auto",
torch_dtype=torch.bfloat16,
)
messages = [
{
"role": "system",
"content": "", # Model not yet trained for follow this
},
{"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
]
outputs = pipe(
messages,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_k=50,
top_p=0.95,
stop_sequence="<|im_end|>",
)
print(outputs[0]["generated_text"][-1]["content"])
# It is not possible for a human to eat a helicopter in one sitting, as a
# helicopter is a large and inedible machine. Helicopters are made of metal,
# plastic, and other materials that are not meant to be consumed by humans.
# Eating a helicopter would be extremely dangerous and would likely cause
# serious health problems, including choking, suffocation, and poisoning. It is
# important to only eat food that is safe and intended for human consumption.
✨ 主要特性
- 微調優化:基於70億參數的GPT類模型,在公開可用的合成數據集上進行微調。
- 語言支持:主要支持英語。
- 訓練方式:使用DPO方法在合成數據集上訓練,可通過Alignment Handbook復現訓練。
- 應用場景:可用於聊天場景,可通過demo測試其能力。
📦 安裝指南
運行模型前,你需要安裝以下依賴:
pip install transformers>=4.38.2
pip install accelerate
📚 詳細文檔
模型描述
屬性 | 詳情 |
---|---|
模型類型 | 一個具有70億參數的類GPT模型,在公開可用的合成數據集上進行微調。 |
語言(NLP) | 主要為英語 |
許可證 | Gemma 使用條款 |
微調基礎模型 | google/gemma-7b |
模型來源
- 倉庫:https://github.com/huggingface/alignment-handbook
- 演示:https://huggingface.co/spaces/HuggingFaceH4/zephyr-7b-gemma-chat
性能表現
部分指標對比
模型 | MT Bench⬇️ | IFEval |
---|---|---|
zephyr-7b-gemma-v0.1 | 7.81 | 28.76 |
zephyr-7b-beta | 7.34 | 43.81 |
google/gemma-7b-it | 6.38 | 38.01 |
更多指標對比
模型 | AGIEval | GPT4All | TruthfulQA | BigBench | 平均 ⬇️ |
---|---|---|---|---|---|
zephyr-7b-beta | 37.52 | 71.77 | 55.26 | 39.77 | 51.08 |
zephyr-7b-gemma-v0.1 | 34.22 | 66.37 | 52.19 | 37.10 | 47.47 |
mlabonne/Gemmalpaca-7B | 21.6 | 40.87 | 44.85 | 30.49 | 34.45 |
google/gemma-7b-it | 21.33 | 40.84 | 41.70 | 30.25 | 33.53 |
AGIEval、GPT4All、TruthfulQA、BigBench詳情
AGIEval
任務 | 版本 | 指標 | 值 | 標準誤差 | |
---|---|---|---|---|---|
agieval_aqua_rat | 0 | acc | 21.65 | ± | 2.59 |
acc_norm | 25.20 | ± | 2.73 | ||
agieval_logiqa_en | 0 | acc | 34.72 | ± | 1.87 |
acc_norm | 35.94 | ± | 1.88 | ||
agieval_lsat_ar | 0 | acc | 19.57 | ± | 2.62 |
acc_norm | 21.74 | ± | 2.73 | ||
agieval_lsat_lr | 0 | acc | 30.59 | ± | 2.04 |
acc_norm | 32.55 | ± | 2.08 | ||
agieval_lsat_rc | 0 | acc | 49.07 | ± | 3.05 |
acc_norm | 42.75 | ± | 3.02 | ||
agieval_sat_en | 0 | acc | 54.85 | ± | 3.48 |
acc_norm | 53.40 | ± | 3.48 | ||
agieval_sat_en_without_passage | 0 | acc | 37.38 | ± | 3.38 |
acc_norm | 33.98 | ± | 3.31 | ||
agieval_sat_math | 0 | acc | 30.91 | ± | 3.12 |
acc_norm | 28.18 | ± | 3.04 |
平均:34.22%
GPT4All
任務 | 版本 | 指標 | 值 | 標準誤差 | |
---|---|---|---|---|---|
arc_challenge | 0 | acc | 49.15 | ± | 1.46 |
acc_norm | 52.47 | ± | 1.46 | ||
arc_easy | 0 | acc | 77.44 | ± | 0.86 |
acc_norm | 74.75 | ± | 0.89 | ||
boolq | 1 | acc | 79.69 | ± | 0.70 |
hellaswag | 0 | acc | 60.59 | ± | 0.49 |
acc_norm | 78.00 | ± | 0.41 | ||
openbookqa | 0 | acc | 29.20 | ± | 2.04 |
acc_norm | 37.80 | ± | 2.17 | ||
piqa | 0 | acc | 76.82 | ± | 0.98 |
acc_norm | 77.80 | ± | 0.97 | ||
winogrande | 0 | acc | 64.09 | ± | 1.35 |
平均:66.37%
TruthfulQA
任務 | 版本 | 指標 | 值 | 標準誤差 | |
---|---|---|---|---|---|
truthfulqa_mc | 1 | mc1 | 35.74 | ± | 1.68 |
mc2 | 52.19 | ± | 1.59 |
平均:52.19%
Bigbench
任務 | 版本 | 指標 | 值 | 標準誤差 | |
---|---|---|---|---|---|
bigbench_causal_judgement | 0 | multiple_choice_grade | 53.68 | ± | 3.63 |
bigbench_date_understanding | 0 | multiple_choice_grade | 59.89 | ± | 2.55 |
bigbench_disambiguation_qa | 0 | multiple_choice_grade | 30.23 | ± | 2.86 |
bigbench_geometric_shapes | 0 | multiple_choice_grade | 11.42 | ± | 1.68 |
exact_str_match | 0.00 | ± | 0.00 | ||
bigbench_logical_deduction_five_objects | 0 | multiple_choice_grade | 28.40 | ± | 2.02 |
bigbench_logical_deduction_seven_objects | 0 | multiple_choice_grade | 19.14 | ± | 1.49 |
bigbench_logical_deduction_three_objects | 0 | multiple_choice_grade | 44.67 | ± | 2.88 |
bigbench_movie_recommendation | 0 | multiple_choice_grade | 26.80 | ± | 1.98 |
bigbench_navigate | 0 | multiple_choice_grade | 50.00 | ± | 1.58 |
bigbench_reasoning_about_colored_objects | 0 | multiple_choice_grade | 52.75 | ± | 1.12 |
bigbench_ruin_names | 0 | multiple_choice_grade | 33.04 | ± | 2.22 |
bigbench_salient_translation_error_detection | 0 | multiple_choice_grade | 33.37 | ± | 1.49 |
bigbench_snarks | 0 | multiple_choice_grade | 48.62 | ± | 3.73 |
bigbench_sports_understanding | 0 | multiple_choice_grade | 58.11 | ± | 1.57 |
bigbench_temporal_sequences | 0 | multiple_choice_grade | 37.20 | ± | 1.53 |
bigbench_tracking_shuffled_objects_five_objects | 0 | multiple_choice_grade | 20.08 | ± | 1.13 |
bigbench_tracking_shuffled_objects_seven_objects | 0 | multiple_choice_grade | 15.77 | ± | 0.87 |
bigbench_tracking_shuffled_objects_three_objects | 0 | multiple_choice_grade | 44.67 | ± | 2.88 |
平均:37.1%
預期用途與限制
該模型最初在DEITA 10K數據集上進行微調,該數據集包含ChatGPT生成的各種合成對話。然後,使用🤗 TRL的DPOTrainer
在argilla/dpo-mix-7k數據集上進一步對齊,該數據集包含7000個由GPT - 4排名的提示和模型完成結果。因此,該模型可用於聊天,你可以通過demo測試其能力。
偏差、風險和限制
Zephyr 7B Gemma在基於人類反饋的強化學習(RLHF)階段未針對人類安全偏好進行對齊,也未像ChatGPT那樣在響應中進行即時過濾,因此該模型可能會產生有問題的輸出(特別是在受到特定提示時)。此外,不清楚訓練基礎模型(google/gemma-7b
)所使用的語料庫的大小和組成,但很可能包含網絡數據以及書籍和代碼等技術來源。可參考StarCoder2模型卡片瞭解相關示例。
訓練和評估數據
該模型是基於HuggingFaceH4/zephyr-7b-gemma-sft-v0.1在argilla/dpo-mix-7k數據集上微調而來。
在評估集上的結果如下:
- 損失:0.4695
- 獎勵/選擇:-3.3746
- 獎勵/拒絕:-4.9715
- 獎勵/準確率:0.7188
- 獎勵/差距:1.5970
- 對數概率/拒絕:-459.4853
- 對數概率/選擇:-429.9115
- 對數幾率/拒絕:86.4684
- 對數幾率/選擇:92.8200
訓練超參數
訓練期間使用的超參數如下:
- 學習率:5e - 07
- 訓練批次大小:2
- 評估批次大小:4
- 隨機種子:42
- 分佈式類型:多GPU
- 設備數量:8
- 梯度累積步數:8
- 總訓練批次大小:128
- 總評估批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:餘弦
- 學習率調度器預熱比例:0.1
- 訓練輪數:2
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 | 獎勵/選擇 | 獎勵/拒絕 | 獎勵/準確率 | 獎勵/差距 | 對數概率/拒絕 | 對數概率/選擇 | 對數幾率/拒絕 | 對數幾率/選擇 |
---|---|---|---|---|---|---|---|---|---|---|---|
0.1923 | 1.9 | 100 | 0.4736 | -3.4575 | -4.9556 | 0.75 | 1.4980 | -459.1662 | -431.5707 | 86.3863 | 92.7360 |
框架版本
- Transformers 4.39.0.dev0
- Pytorch 2.1.2+cu121
- Datasets 2.14.6
- Tokenizers 0.15.1
引用信息
如果你在工作中發現該模型有用,請考慮引用Zephyr技術報告:
@misc{tunstall2023zephyr,
title={Zephyr: Direct Distillation of LM Alignment},
author={Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Kashif Rasul and Younes Belkada and Shengyi Huang and Leandro von Werra and Clémentine Fourrier and Nathan Habib and Nathan Sarrazin and Omar Sanseviero and Alexander M. Rush and Thomas Wolf},
year={2023},
eprint={2310.16944},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
你也可以引用該模型的創建者:
@misc{zephyr_7b_gemma,
author = {Lewis Tunstall and Philipp Schmid},
title = {Zephyr 7B Gemma},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-v0.1}}
}
開放大語言模型排行榜評估結果
詳細結果可查看此處
指標 | 值 |
---|---|
平均 | 62.41 |
AI2推理挑戰(25次少樣本) | 58.45 |
HellaSwag(10次少樣本) | 83.48 |
MMLU(5次少樣本) | 60.68 |
TruthfulQA(0次少樣本) | 52.07 |
Winogrande(5次少樣本) | 74.19 |
GSM8k(5次少樣本) | 45.56 |
📄 許可證
本模型使用Gemma使用條款,具體條款可查看此處。



