Zephyr-orpo-141b-A35b-v0.1開源大語言模型 - 免費助力做您貼心有用的助手

首頁

Zephyr Orpo 141b A35b V0.1

由HuggingFaceH4開發

Zephyr 141B-A39B是基於Mixtral-8x22B-v0.1微調的大型語言模型，採用ORPO對齊算法訓練，旨在成為有用的助手。

大型語言模型

Transformers

開源協議:Apache-2.0 #專家混合模型 #ORPO優化 #多輪對話

下載量 3,382

發布時間 : 4/10/2024

模型概述

Zephyr 141B-A39B是一個專家混合（MoE）模型，總參數量141B，激活參數量39B。在聊天、代碼、數學和推理數據的混合上進行了微調，支持英語為主的交互。

模型特點

ORPO對齊算法

採用Odds Ratio Preference Optimization (ORPO)算法進行訓練，比DPO和PPO等方法計算效率更高。

高效訓練

僅使用7k個實例，在4個節點（每個節點8個H100 GPU）上訓練1.3小時完成。

多輪對話能力

基於高質量、多輪合成偏好數據集訓練，具備優秀的對話交互能力。

模型能力

文本生成

多輪對話

代碼生成

數學推理

使用案例

對話助手

智能客服

用於提供客戶支持和解答常見問題

能夠理解複雜問題並提供準確回答

教育輔助

概念解釋

用簡單語言解釋複雜概念

能夠將專業術語轉化為兒童易懂的語言

🚀 Zephyr 141B-A39B模型介紹

Zephyr是一系列經過訓練的語言模型，旨在成為用戶的得力助手。Zephyr 141B-A39B是該系列的最新模型，它基於mistral-community/Mixtral-8x22B-v0.1進行微調。訓練過程採用了一種名為Odds Ratio Preference Optimization (ORPO)的新型對齊算法，使用了7k個實例，在4個節點（每個節點配備8個H100 GPU）上訓練了1.3小時。ORPO無需進行SFT步驟即可實現高性能，因此在計算效率上比DPO和PPO等方法更高。訓練Zephyr-141B-A39B時，使用了argilla/distilabel-capybara-dpo-7k-binarized偏好數據集，該數據集由通過大語言模型評分的合成、高質量多輪偏好數據組成。

⚠️ 重要提示

該模型由Argilla、KAIST和Hugging Face合作訓練。

🚀 快速開始

你可以使用🤗 Transformers庫中的pipeline()函數來運行該模型，示例代碼如下：

# pip install 'transformers>=4.39.3'
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)
messages = [
    {
        "role": "system",
        "content": "You are Zephyr, a helpful assistant.",
    },
    {"role": "user", "content": "Explain how Mixture of Experts work in language a child would understand."},
]
outputs = pipe(
    messages,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95,
)
print(outputs[0]["generated_text"][-1]["content"])

✨ 主要特性

高效訓練算法：採用ORPO算法，無需SFT步驟，計算效率高。
高質量數據集：使用合成、高質量的多輪偏好數據集進行訓練。
良好性能表現：在聊天基準測試如MT Bench和IFEval上表現出色。

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
模型類型	專家混合（MoE）模型，總參數141B，活動參數39B。（最初在計算模型ID的活動參數數量時出現小錯誤，模型卡片中顯示的是正確數量。）在公開可用的合成數據集上進行微調。
語言	主要為英語
許可證	Apache 2.0
微調基礎模型	mistral-community/Mixtral-8x22B-v0.1

模型來源

倉庫：https://github.com/huggingface/alignment-handbook
數據集：https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized

性能表現

Zephyr 141B-A39B用於測試ORPO在大規模場景下的有效性，基礎數據集包含多種通用聊天能力。該模型在聊天基準測試中取得了良好成績，以下是使用LightEval評估套件得到的分數，每個提示都使用了模型對應的聊天模板進行格式化，以模擬真實使用場景，因此部分分數可能與技術報告或開放大語言模型排行榜中的分數有所不同。

模型	MT Bench	IFEval	BBH	AGIEval
zephyr-orpo-141b-A35b-v0.1	8.17	65.06	58.96	44.16
databricks/dbrx-instruct	8.26	52.13	48.50	41.16
mistralai/Mixtral-8x7B-Instruct-v0.1	8.30	55.08	45.31	47.68

預期用途與限制

該模型在聊天、代碼、數學和推理數據的混合數據集上進行了微調。

偏差、風險和限制

Zephyr 141B-A39B在基於人類反饋的強化學習（RLHF）階段未進行人類偏好對齊，也未像ChatGPT那樣在輸出時進行即時過濾，因此該模型可能會產生有問題的輸出（尤其是在特定提示下）。此外，不清楚基礎模型（mistral-community/Mixtral-8x22B-v0.1）訓練語料庫的規模和組成，但可能包含網絡數據以及書籍和代碼等技術來源的數據，可參考Falcon 180B模型卡片。

訓練過程

訓練超參數

學習率：5e-06
訓練批次大小：1
評估批次大小：8
隨機種子：42
分佈式類型：多GPU
設備數量：32
總訓練批次大小：32
總評估批次大小：256
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：inverse_sqrt
學習率調度器熱身步數：100
訓練輪數：3

框架版本

Transformers 4.39.3
Pytorch 2.1.2+cu121
Datasets 2.18.0
Tokenizers 0.15.1

📄 許可證

本模型使用Apache 2.0許可證。

🔖 引用

如果你在工作中使用了Zephyr 141B-A39B，請引用ORPO論文：

@misc{hong2024orpo,
      title={ORPO: Monolithic Preference Optimization without Reference Model}, 
      author={Jiwoo Hong and Noah Lee and James Thorne},
      year={2024},
      eprint={2403.07691},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

你也可以引用該模型的創建者：

@misc{zephyr_141b,
  author = {Alvaro Bartolome and Jiwoo Hong and Noah Lee and Kashif Rasul and Lewis Tunstall},
  title = {Zephyr 141B A39B},
  year = {2024},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1}}
}