Zephyr 7B Gemma v0.1開源語言模型 - 免費可部署的實用助手

首頁

Zephyr 7b Gemma V0.1

由HuggingFaceH4開發

Zephyr 7B Gemma是基於google/gemma-7b微調的語言模型，使用直接偏好優化(DPO)在公開合成數據集上訓練，旨在作為有用的助手。

大型語言模型

Transformers

開源協議:其他 #英語對話優化 #DPO微調 #7B參數規模

下載量 502

發布時間 : 3/1/2024

模型概述

Zephyr系列語言模型的第三個版本，70億參數規模，主要用於英語文本生成任務，經過對齊優化以提供更符合人類偏好的響應。

模型特點

直接偏好優化(DPO)

使用DPO方法在合成數據集上進行微調，使模型輸出更符合人類偏好

高性能

在多個基準測試中表現優異，如MT-Bench得分7.81

開源訓練配方

可通過對齊手冊提供的配方重現訓練過程

模型能力

文本生成

對話系統

問答系統

推理任務

使用案例

對話系統

智能助手

可作為日常對話助手使用

在MT-Bench對話評估中獲得7.81分

知識問答

AI2推理挑戰賽

解決複雜的推理問題

25-shot下標準化準確率58.45

數學推理

GSM8k數學題

解決小學數學應用題

5-shot準確率45.56

🚀 Zephyr 7B Gemma

Zephyr是一系列旨在作為實用助手的語言模型。Zephyr 7B Gemma是該系列中的第三個模型，它是基於google/gemma-7b微調而來，使用直接偏好優化（DPO）在公開可用的合成數據集上進行訓練。你可以通過Alignment Handbook中提供的方法復現該模型的訓練過程。

🚀 快速開始

你可以使用🤗 Transformers庫中的pipeline()函數運行該模型：

# pip install transformers>=4.38.2
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="HuggingFaceH4/zephyr-7b-gemma-v0.1",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)
messages = [
    {
        "role": "system",
        "content": "",  # Model not yet trained for follow this
    },
    {"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
]
outputs = pipe(
    messages,
    max_new_tokens=128,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95,
    stop_sequence="<|im_end|>",
)
print(outputs[0]["generated_text"][-1]["content"])
# It is not possible for a human to eat a helicopter in one sitting, as a
# helicopter is a large and inedible machine. Helicopters are made of metal,
# plastic, and other materials that are not meant to be consumed by humans.
# Eating a helicopter would be extremely dangerous and would likely cause
# serious health problems, including choking, suffocation, and poisoning. It is
# important to only eat food that is safe and intended for human consumption.

✨ 主要特性

微調優化：基於70億參數的GPT類模型，在公開可用的合成數據集上進行微調。
語言支持：主要支持英語。
訓練方式：使用DPO方法在合成數據集上訓練，可通過Alignment Handbook復現訓練。
應用場景：可用於聊天場景，可通過demo測試其能力。

📦 安裝指南

運行模型前，你需要安裝以下依賴：

pip install transformers>=4.38.2
pip install accelerate

📚 詳細文檔

模型描述

屬性	詳情
模型類型	一個具有70億參數的類GPT模型，在公開可用的合成數據集上進行微調。
語言（NLP）	主要為英語
許可證	Gemma 使用條款
微調基礎模型	google/gemma-7b

模型來源

倉庫：https://github.com/huggingface/alignment-handbook
演示：https://huggingface.co/spaces/HuggingFaceH4/zephyr-7b-gemma-chat

性能表現

部分指標對比

模型	MT Bench⬇️	IFEval
zephyr-7b-gemma-v0.1	7.81	28.76
zephyr-7b-beta	7.34	43.81
google/gemma-7b-it	6.38	38.01

模型	AGIEval	GPT4All	TruthfulQA	BigBench	平均 ⬇️
zephyr-7b-beta	37.52	71.77	55.26	39.77	51.08
zephyr-7b-gemma-v0.1	34.22	66.37	52.19	37.10	47.47
mlabonne/Gemmalpaca-7B	21.6	40.87	44.85	30.49	34.45
google/gemma-7b-it	21.33	40.84	41.70	30.25	33.53

AGIEval

任務	版本	指標	值		標準誤差
agieval_aqua_rat	0	acc	21.65	±	2.59
		acc_norm	25.20	±	2.73
agieval_logiqa_en	0	acc	34.72	±	1.87
		acc_norm	35.94	±	1.88
agieval_lsat_ar	0	acc	19.57	±	2.62
		acc_norm	21.74	±	2.73
agieval_lsat_lr	0	acc	30.59	±	2.04
		acc_norm	32.55	±	2.08
agieval_lsat_rc	0	acc	49.07	±	3.05
		acc_norm	42.75	±	3.02
agieval_sat_en	0	acc	54.85	±	3.48
		acc_norm	53.40	±	3.48
agieval_sat_en_without_passage	0	acc	37.38	±	3.38
		acc_norm	33.98	±	3.31
agieval_sat_math	0	acc	30.91	±	3.12
		acc_norm	28.18	±	3.04

平均：34.22%

GPT4All

任務	版本	指標	值		標準誤差
arc_challenge	0	acc	49.15	±	1.46
		acc_norm	52.47	±	1.46
arc_easy	0	acc	77.44	±	0.86
		acc_norm	74.75	±	0.89
boolq	1	acc	79.69	±	0.70
hellaswag	0	acc	60.59	±	0.49
		acc_norm	78.00	±	0.41
openbookqa	0	acc	29.20	±	2.04
		acc_norm	37.80	±	2.17
piqa	0	acc	76.82	±	0.98
		acc_norm	77.80	±	0.97
winogrande	0	acc	64.09	±	1.35

平均：66.37%

TruthfulQA

任務	版本	指標	值		標準誤差
truthfulqa_mc	1	mc1	35.74	±	1.68
		mc2	52.19	±	1.59

平均：52.19%

Bigbench

任務	版本	指標	值		標準誤差
bigbench_causal_judgement	0	multiple_choice_grade	53.68	±	3.63
bigbench_date_understanding	0	multiple_choice_grade	59.89	±	2.55
bigbench_disambiguation_qa	0	multiple_choice_grade	30.23	±	2.86
bigbench_geometric_shapes	0	multiple_choice_grade	11.42	±	1.68
		exact_str_match	0.00	±	0.00
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	28.40	±	2.02
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	19.14	±	1.49
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	44.67	±	2.88
bigbench_movie_recommendation	0	multiple_choice_grade	26.80	±	1.98
bigbench_navigate	0	multiple_choice_grade	50.00	±	1.58
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	52.75	±	1.12
bigbench_ruin_names	0	multiple_choice_grade	33.04	±	2.22
bigbench_salient_translation_error_detection	0	multiple_choice_grade	33.37	±	1.49
bigbench_snarks	0	multiple_choice_grade	48.62	±	3.73
bigbench_sports_understanding	0	multiple_choice_grade	58.11	±	1.57
bigbench_temporal_sequences	0	multiple_choice_grade	37.20	±	1.53
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	20.08	±	1.13
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	15.77	±	0.87
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	44.67	±	2.88

平均：37.1%

預期用途與限制

該模型最初在DEITA 10K數據集上進行微調，該數據集包含ChatGPT生成的各種合成對話。然後，使用🤗 TRL的DPOTrainer在argilla/dpo-mix-7k數據集上進一步對齊，該數據集包含7000個由GPT - 4排名的提示和模型完成結果。因此，該模型可用於聊天，你可以通過demo測試其能力。

偏差、風險和限制

Zephyr 7B Gemma在基於人類反饋的強化學習（RLHF）階段未針對人類安全偏好進行對齊，也未像ChatGPT那樣在響應中進行即時過濾，因此該模型可能會產生有問題的輸出（特別是在受到特定提示時）。此外，不清楚訓練基礎模型（google/gemma-7b）所使用的語料庫的大小和組成，但很可能包含網絡數據以及書籍和代碼等技術來源。可參考StarCoder2模型卡片瞭解相關示例。

訓練和評估數據

該模型是基於HuggingFaceH4/zephyr-7b-gemma-sft-v0.1在argilla/dpo-mix-7k數據集上微調而來。

在評估集上的結果如下：

損失：0.4695
獎勵/選擇：-3.3746
獎勵/拒絕：-4.9715
獎勵/準確率：0.7188
獎勵/差距：1.5970
對數概率/拒絕：-459.4853
對數概率/選擇：-429.9115
對數幾率/拒絕：86.4684
對數幾率/選擇：92.8200

訓練超參數

訓練期間使用的超參數如下：

學習率：5e - 07
訓練批次大小：2
評估批次大小：4
隨機種子：42
分佈式類型：多GPU
設備數量：8
梯度累積步數：8
總訓練批次大小：128
總評估批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：餘弦
學習率調度器預熱比例：0.1
訓練輪數：2

訓練結果

訓練損失	輪數	步數	驗證損失	獎勵/選擇	獎勵/拒絕	獎勵/準確率	獎勵/差距	對數概率/拒絕	對數概率/選擇	對數幾率/拒絕	對數幾率/選擇
0.1923	1.9	100	0.4736	-3.4575	-4.9556	0.75	1.4980	-459.1662	-431.5707	86.3863	92.7360

框架版本

Transformers 4.39.0.dev0
Pytorch 2.1.2+cu121
Datasets 2.14.6
Tokenizers 0.15.1

引用信息

如果你在工作中發現該模型有用，請考慮引用Zephyr技術報告：

@misc{tunstall2023zephyr,
      title={Zephyr: Direct Distillation of LM Alignment}, 
      author={Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Kashif Rasul and Younes Belkada and Shengyi Huang and Leandro von Werra and Clémentine Fourrier and Nathan Habib and Nathan Sarrazin and Omar Sanseviero and Alexander M. Rush and Thomas Wolf},
      year={2023},
      eprint={2310.16944},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

你也可以引用該模型的創建者：

@misc{zephyr_7b_gemma,
  author = {Lewis Tunstall and Philipp Schmid},
  title = {Zephyr 7B Gemma},
  year = {2024},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-v0.1}}
}

開放大語言模型排行榜評估結果

詳細結果可查看此處

指標	值
平均	62.41
AI2推理挑戰（25次少樣本）	58.45
HellaSwag（10次少樣本）	83.48
MMLU（5次少樣本）	60.68
TruthfulQA（0次少樣本）	52.07
Winogrande（5次少樣本）	74.19
GSM8k（5次少樣本）	45.56