🚀 Zephyr 141B-A39B
Zephyrは、役に立つアシスタントとして機能するように訓練された一連の言語モデルです。Zephyr 141B-A39Bは、このシリーズの最新モデルで、mistral-community/Mixtral-8x22B-v0.1 をベースに、新しいアライメントアルゴリズムである Odds Ratio Preference Optimization (ORPO) を使用して、4ノードの8 x H100で 7kインスタンス を 1.3時間 訓練したファインチューニングバージョンです。ORPOは、高性能を達成するためにSFTステップを必要とせず、DPOやPPOなどの方法よりも計算効率がはるかに高いです。Zephyr-141B-A39Bを訓練するために、argilla/distilabel-capybara-dpo-7k-binarized
という、LLMによってスコア付けされた合成の高品質なマルチターンの好みを含む好みデータセットを使用しました。
⚠️ 重要提示
このモデルは、Argilla、KAIST、Hugging Faceの共同で訓練されました。
🚀 クイックスタート
このセクションでは、Zephyr 141B-A39Bモデルの概要と使用方法について説明します。
✨ 主な機能
- ORPOアルゴリズムを使用した効率的な訓練
- 合成データセットを用いたファインチューニング
- チャットベンチマークでの高い性能
📚 ドキュメント
モデルの詳細
モデルの説明
属性 |
详情 |
模型类型 |
合計141Bのパラメータと39Bのアクティブパラメータを持つエキスパート混合(MoE)モデル。(モデルIDのアクティブパラメータ数の計算に最初は小さな誤りがありました。モデルカードには正しい数が記載されています。)公開されている合成データセットの混合でファインチューニングされています。 |
语言 |
主に英語 |
许可证 |
Apache 2.0 |
微调基础模型 |
mistral-community/Mixtral-8x22B-v0.1 |
モデルのソース
- リポジトリ: https://github.com/huggingface/alignment-handbook
- データセット: https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized
性能
Zephyr 141B-A39Bは、大規模でのORPOの有効性をテストするために訓練され、基礎となるデータセットには一般的なチャット機能が含まれています。MT Bench や IFEval などのチャットベンチマークで高い性能を達成しています。以下のスコアは、LightEval 評価スイートを使用して取得され、各プロンプトは実際の使用をシミュレートするためにモデルの対応するチャットテンプレートでフォーマットされています。このため、一部のスコアは技術報告書やOpen LLMリーダーボードで報告されているものと異なる場合があります。
想定される用途と制限
このモデルは、チャット、コード、数学、推論データの混合でファインチューニングされています。以下は、🤗 Transformers の pipeline()
関数を使用してモデルを実行する方法の例です。
💻 使用例
基本的な使用法
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1",
device_map="auto",
torch_dtype=torch.bfloat16,
)
messages = [
{
"role": "system",
"content": "You are Zephyr, a helpful assistant.",
},
{"role": "user", "content": "Explain how Mixture of Experts work in language a child would understand."},
]
outputs = pipe(
messages,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_k=50,
top_p=0.95,
)
print(outputs[0]["generated_text"][-1]["content"])
バイアス、リスク、制限
Zephyr 141B-A39Bは、RLHFフェーズで人間の好みにアライメントされておらず、ChatGPTのような応答のループ内フィルタリングも行われていないため、問題のある出力を生成する可能性があります(特にそのように促された場合)。また、ベースモデル (mistral-community/Mixtral-8x22B-v0.1
) の訓練に使用されたコーパスのサイズと構成は不明ですが、Webデータや書籍、コードなどの技術的なソースが含まれている可能性が高いです。詳細は Falcon 180Bモデルカード を参照してください。
訓練手順
訓練ハイパーパラメータ
訓練中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 5e-06
- train_batch_size: 1
- eval_batch_size: 8
- seed: 42
- distributed_type: multi-GPU
- num_devices: 32
- total_train_batch_size: 32
- total_eval_batch_size: 256
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: inverse_sqrt
- lr_scheduler_warmup_steps: 100
- num_epochs: 3
フレームワークのバージョン
- Transformers 4.39.3
- Pytorch 2.1.2+cu121
- Datasets 2.18.0
- Tokenizers 0.15.1
引用
Zephyr 141B-A39Bがあなたの研究に役立った場合は、ORPO論文を引用してください。
@misc{hong2024orpo,
title={ORPO: Monolithic Preference Optimization without Reference Model},
author={Jiwoo Hong and Noah Lee and James Thorne},
year={2024},
eprint={2403.07691},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
また、このモデルの作成者を引用することもできます。
@misc{zephyr_141b,
author = {Alvaro Bartolome and Jiwoo Hong and Noah Lee and Kashif Rasul and Lewis Tunstall},
title = {Zephyr 141B A39B},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1}}
}
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。