🚀 Zephyr 141B-A39B模型介紹
Zephyr是一系列經過訓練的語言模型,旨在成為用戶的得力助手。Zephyr 141B-A39B是該系列的最新模型,它基於mistral-community/Mixtral-8x22B-v0.1進行微調。訓練過程採用了一種名為Odds Ratio Preference Optimization (ORPO)的新型對齊算法,使用了7k個實例,在4個節點(每個節點配備8個H100 GPU)上訓練了1.3小時。ORPO無需進行SFT步驟即可實現高性能,因此在計算效率上比DPO和PPO等方法更高。訓練Zephyr-141B-A39B時,使用了argilla/distilabel-capybara-dpo-7k-binarized
偏好數據集,該數據集由通過大語言模型評分的合成、高質量多輪偏好數據組成。
⚠️ 重要提示
該模型由Argilla、KAIST和Hugging Face合作訓練。
🚀 快速開始
你可以使用🤗 Transformers庫中的pipeline()
函數來運行該模型,示例代碼如下:
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1",
device_map="auto",
torch_dtype=torch.bfloat16,
)
messages = [
{
"role": "system",
"content": "You are Zephyr, a helpful assistant.",
},
{"role": "user", "content": "Explain how Mixture of Experts work in language a child would understand."},
]
outputs = pipe(
messages,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_k=50,
top_p=0.95,
)
print(outputs[0]["generated_text"][-1]["content"])
✨ 主要特性
- 高效訓練算法:採用ORPO算法,無需SFT步驟,計算效率高。
- 高質量數據集:使用合成、高質量的多輪偏好數據集進行訓練。
- 良好性能表現:在聊天基準測試如MT Bench和IFEval上表現出色。
📚 詳細文檔
模型詳情
模型描述
模型來源
- 倉庫:https://github.com/huggingface/alignment-handbook
- 數據集:https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized
性能表現
Zephyr 141B-A39B用於測試ORPO在大規模場景下的有效性,基礎數據集包含多種通用聊天能力。該模型在聊天基準測試中取得了良好成績,以下是使用LightEval評估套件得到的分數,每個提示都使用了模型對應的聊天模板進行格式化,以模擬真實使用場景,因此部分分數可能與技術報告或開放大語言模型排行榜中的分數有所不同。
預期用途與限制
該模型在聊天、代碼、數學和推理數據的混合數據集上進行了微調。
偏差、風險和限制
Zephyr 141B-A39B在基於人類反饋的強化學習(RLHF)階段未進行人類偏好對齊,也未像ChatGPT那樣在輸出時進行即時過濾,因此該模型可能會產生有問題的輸出(尤其是在特定提示下)。此外,不清楚基礎模型(mistral-community/Mixtral-8x22B-v0.1
)訓練語料庫的規模和組成,但可能包含網絡數據以及書籍和代碼等技術來源的數據,可參考Falcon 180B模型卡片。
訓練過程
訓練超參數
- 學習率:5e-06
- 訓練批次大小:1
- 評估批次大小:8
- 隨機種子:42
- 分佈式類型:多GPU
- 設備數量:32
- 總訓練批次大小:32
- 總評估批次大小:256
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:inverse_sqrt
- 學習率調度器熱身步數:100
- 訓練輪數:3
框架版本
- Transformers 4.39.3
- Pytorch 2.1.2+cu121
- Datasets 2.18.0
- Tokenizers 0.15.1
📄 許可證
本模型使用Apache 2.0許可證。
🔖 引用
如果你在工作中使用了Zephyr 141B-A39B,請引用ORPO論文:
@misc{hong2024orpo,
title={ORPO: Monolithic Preference Optimization without Reference Model},
author={Jiwoo Hong and Noah Lee and James Thorne},
year={2024},
eprint={2403.07691},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
你也可以引用該模型的創建者:
@misc{zephyr_141b,
author = {Alvaro Bartolome and Jiwoo Hong and Noah Lee and Kashif Rasul and Lewis Tunstall},
title = {Zephyr 141B A39B},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1}}
}