Zephyr - orpo - 141b - A35b - v0.1オープンソース大規模言語モデル - 無料であなたの身近で便利なアシスタントになります

ホーム

Zephyr Orpo 141b A35b V0.1

HuggingFaceH4によって開発

Zephyr 141B-A39BはMixtral-8x22B-v0.1を微調整した大規模言語モデルで、ORPOアライメントアルゴリズムで訓練され、有用なアシスタントとなることを目指しています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #エキスパート混合モデル #ORPO最適化 #マルチターン対話

ダウンロード数 3,382

リリース時間 : 4/10/2024

モデル概要

Zephyr 141B-A39Bはエキスパート混合（MoE）モデルで、総パラメータ数141B、活性化パラメータ数39Bです。チャット、コード、数学、推論データの混合で微調整されており、英語を中心としたインタラクションをサポートします。

モデル特徴

ORPOアライメントアルゴリズム

Odds Ratio Preference Optimization (ORPO)アルゴリズムを使用して訓練されており、DPOやPPOなどの方法よりも計算効率が高いです。

効率的な訓練

わずか7kのインスタンスを使用し、4ノード（各ノード8つのH100 GPU）で1.3時間の訓練で完了しました。

マルチターン対話能力

高品質なマルチターン合成選好データセットに基づいて訓練されており、優れた対話インタラクション能力を備えています。

モデル能力

テキスト生成

マルチターン対話

コード生成

数学的推論

使用事例

対話アシスタント

インテリジェントカスタマーサポート

カスタマーサポートの提供や一般的な質問への回答に使用されます

複雑な問題を理解し、正確な回答を提供できます

教育支援

概念説明

複雑な概念を簡単な言葉で説明します

専門用語を子供が理解できる言葉に変換できます

🚀 Zephyr 141B-A39B

Zephyrは、役に立つアシスタントとして機能するように訓練された一連の言語モデルです。Zephyr 141B-A39Bは、このシリーズの最新モデルで、mistral-community/Mixtral-8x22B-v0.1 をベースに、新しいアライメントアルゴリズムである Odds Ratio Preference Optimization (ORPO) を使用して、4ノードの8 x H100で 7kインスタンス を 1.3時間 訓練したファインチューニングバージョンです。ORPOは、高性能を達成するためにSFTステップを必要とせず、DPOやPPOなどの方法よりも計算効率がはるかに高いです。Zephyr-141B-A39Bを訓練するために、argilla/distilabel-capybara-dpo-7k-binarized という、LLMによってスコア付けされた合成の高品質なマルチターンの好みを含む好みデータセットを使用しました。

⚠️ 重要提示

このモデルは、Argilla、KAIST、Hugging Faceの共同で訓練されました。

🚀 クイックスタート

このセクションでは、Zephyr 141B-A39Bモデルの概要と使用方法について説明します。

✨ 主な機能

ORPOアルゴリズムを使用した効率的な訓練
合成データセットを用いたファインチューニング
チャットベンチマークでの高い性能

📚 ドキュメント

モデルの詳細

モデルの説明

属性	详情
模型类型	合計141Bのパラメータと39Bのアクティブパラメータを持つエキスパート混合（MoE）モデル。（モデルIDのアクティブパラメータ数の計算に最初は小さな誤りがありました。モデルカードには正しい数が記載されています。）公開されている合成データセットの混合でファインチューニングされています。
语言	主に英語
许可证	Apache 2.0
微调基础模型	mistral-community/Mixtral-8x22B-v0.1

モデルのソース

リポジトリ: https://github.com/huggingface/alignment-handbook
データセット: https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized

性能

Zephyr 141B-A39Bは、大規模でのORPOの有効性をテストするために訓練され、基礎となるデータセットには一般的なチャット機能が含まれています。MT Bench や IFEval などのチャットベンチマークで高い性能を達成しています。以下のスコアは、LightEval 評価スイートを使用して取得され、各プロンプトは実際の使用をシミュレートするためにモデルの対応するチャットテンプレートでフォーマットされています。このため、一部のスコアは技術報告書やOpen LLMリーダーボードで報告されているものと異なる場合があります。

モデル	MT Bench	IFEval	BBH	AGIEval
zephyr-orpo-141b-A35b-v0.1	8.17	65.06	58.96	44.16
databricks/dbrx-instruct	8.26	52.13	48.50	41.16
mistralai/Mixtral-8x7B-Instruct-v0.1	8.30	55.08	45.31	47.68

想定される用途と制限

このモデルは、チャット、コード、数学、推論データの混合でファインチューニングされています。以下は、🤗 Transformers の pipeline() 関数を使用してモデルを実行する方法の例です。

💻 使用例

基本的な使用法

# pip install 'transformers>=4.39.3'
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)
messages = [
    {
        "role": "system",
        "content": "You are Zephyr, a helpful assistant.",
    },
    {"role": "user", "content": "Explain how Mixture of Experts work in language a child would understand."},
]
outputs = pipe(
    messages,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95,
)
print(outputs[0]["generated_text"][-1]["content"])

バイアス、リスク、制限

Zephyr 141B-A39Bは、RLHFフェーズで人間の好みにアライメントされておらず、ChatGPTのような応答のループ内フィルタリングも行われていないため、問題のある出力を生成する可能性があります（特にそのように促された場合）。また、ベースモデル (mistral-community/Mixtral-8x22B-v0.1) の訓練に使用されたコーパスのサイズと構成は不明ですが、Webデータや書籍、コードなどの技術的なソースが含まれている可能性が高いです。詳細は Falcon 180Bモデルカードを参照してください。

訓練手順

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 5e-06
train_batch_size: 1
eval_batch_size: 8
seed: 42
distributed_type: multi-GPU
num_devices: 32
total_train_batch_size: 32
total_eval_batch_size: 256
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: inverse_sqrt
lr_scheduler_warmup_steps: 100
num_epochs: 3

フレームワークのバージョン

Transformers 4.39.3
Pytorch 2.1.2+cu121
Datasets 2.18.0
Tokenizers 0.15.1

引用

Zephyr 141B-A39Bがあなたの研究に役立った場合は、ORPO論文を引用してください。

@misc{hong2024orpo,
      title={ORPO: Monolithic Preference Optimization without Reference Model}, 
      author={Jiwoo Hong and Noah Lee and James Thorne},
      year={2024},
      eprint={2403.07691},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

また、このモデルの作成者を引用することもできます。

@misc{zephyr_141b,
  author = {Alvaro Bartolome and Jiwoo Hong and Noah Lee and Kashif Rasul and Lewis Tunstall},
  title = {Zephyr 141B A39B},
  year = {2024},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1}}
}