🚀 Llama-3-8B-SFR-Iterative-DPO-R
このモデルは最先端の指示応答モデルです。Alpaca-Eval-V2、MT-Bench、Chat-Arena-Hard という3つの広く使われている指示応答モデルのベンチマークで、同規模のモデルや多くの大規模オープンソースモデル、強力なプロプライエタリモデルを上回る性能を発揮します。また、オープンソースのデータセットのみを使って学習されており、追加の人間やGPT4によるラベリングは行われていません。
✨ 主な機能
- 最先端の指示応答性能を持ち、多くのベンチマークで高いスコアを獲得。
- オープンソースのデータセットのみを使用した学習で、追加のラベリング不要。
- 簡単で効率的なオンラインRLHFレシピによる学習。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
messages = [
{"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]
model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = model_inputs.to(device)
model.to(device)
output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])
📚 ドキュメント
モデルのリリース
学習方法
LLMの指示応答学習のために、簡単で効率的なオンラインRLHFレシピを開発しました。このレシピはDPOベースであり、PPOベースのアプローチと比較して、学習とチューニングがはるかに安価で簡単です。また、広く使われているオフラインDPOとは異なり、オンラインコンポーネントによって、ポリシー最適化中の分布シフトを効果的に軽減します。詳細については、付属の技術レポートを参照してください。
チャットベンチマーク
モデル |
サイズ |
方法 |
LC Alpaca-Eval-V2 |
MT-Bench |
Chat-Arena-Hard |
小規模オープンソースモデル |
|
|
|
|
|
Gemma-7B-it |
7B |
SFT |
10.4 |
6.38 |
7.5 |
Zephyr-7B-beta |
7B |
Vanilla DPO |
13.1 |
7.34 |
- |
Mistral-7B-v0.2-it |
7B |
SFT |
17.1 |
7.51 |
12.6 |
Open-Chat-0106 |
7B |
SFT |
15.6 |
7.8 |
- |
Starling-7B-beta |
7B |
PPO |
25.8 |
8.12 |
23.0 |
LLaMA-3-8B-it |
8B |
RS+DPO+PPO |
22.9 |
8.16 |
20.6 |
当社モデル |
|
|
|
|
|
当社モデル (SFTベースライン) |
8B |
SFT |
10.2 |
7.69 |
5.6 |
当社モデル (DPOベースライン) |
8B |
Vanilla DPO |
22.5 |
8.17 |
22.4 |
当社モデル (オンラインRLHF) |
8B |
Iterative DPO |
31.3 |
8.46 |
29.1 |
大規模オープンソースモデル |
|
|
|
|
|
Vicuna-33b-v1.3 |
33B |
SFT |
17.6 |
7.12 |
8.6 |
Yi-34B-Chat |
34B |
SFT |
27.2 |
- |
23.1 |
Mixtral-8x7B-it |
45B* |
SFT |
23.7 |
8.30 |
23.4 |
Tulu-2-DPO-70B |
70B |
Vanilla DPO |
21.2 |
7.89 |
15.0 |
LLaMA-3-70B-it |
70B |
RS+DPO+PPO |
34.4 |
8.95 |
41.1 |
Mixtral-8x22B-it |
141B* |
SFT |
30.9 |
8.66 |
36.4 |
プロプライエタリモデル |
|
|
|
|
|
GPT-3.5-turbo-1106 |
- |
- |
19.3 |
8.35 |
18.9 |
GPT-3.5-turbo-0613 |
- |
- |
22.7 |
8.39 |
24.8 |
GPT-4-0613 |
- |
- |
30.2 |
9.18 |
37.9 |
Claude-3-Opus |
- |
- |
40.5 |
9.00 |
60.4 |
GPT-4 Turbo (04/09) |
- |
- |
55.0 |
- |
82.6 |
学術ベンチマーク
モデル |
サイズ |
方法 |
GSM-8K |
MMLU |
HumanEval |
TruthfulQA |
ARC |
MBPP |
LLaMA-3-8B-it |
8B |
RS+DPO+PPO |
79.6 |
66.0 |
61.6 |
43.9 |
59.5 |
61.1 |
当社モデル (SFTベースライン) |
8B |
SFT |
74.2 |
64.7 |
65.2 |
53.4 |
61.4 |
62.3 |
当社モデル (DPOベースライン) |
8B |
Vanilla DPO |
79.8 |
64.5 |
63.4 |
61.8 |
65.2 |
60.3 |
当社モデル (Iterative RLHF) |
8B |
Iterative DPO |
80.7 |
65.3 |
64.6 |
60.4 |
64.3 |
60.8 |
🔧 技術詳細
このREADMEには具体的な技術詳細が十分に記載されていないため、このセクションをスキップします。
📄 ライセンス
このモデルのライセンスはllama3です。
制限事項
Llama-3-8B-SFR-Iterative-DPO-Rは、SalesforceにおけるRLHFイニシアチブの一環として開発された研究用モデルです。安全性と倫理性の考慮はアライメントプロセスに組み込まれていますが、特に敵対的な条件下では、モデルが不快な内容や非倫理的な内容を生成する可能性が残っています。当社は、このようなリスクを最小限に抑えるためにモデルの継続的な改善に取り組んでおり、責任ある使用を促します。
引用
当社のモデルが役立つと思われる場合は、以下の論文を引用してください。
@misc{dong2024rlhf,
title={RLHF Workflow: From Reward Modeling to Online RLHF},
author={Hanze Dong* and Wei Xiong* and Bo Pang* and Haoxiang Wang* and Han Zhao and Yingbo Zhou and Nan Jiang and Doyen Sahoo and Caiming Xiong and Tong Zhang},
year={2024},
eprint={2405.07863},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{xiong2024iterative,
title={Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint},
author={Wei Xiong and Hanze Dong and Chenlu Ye and Ziqi Wang and Han Zhong and Heng Ji and Nan Jiang and Tong Zhang},
year={2024},
eprint={2312.11456},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
エシックスに関する免責事項
このリリースは学術論文の支援のための研究目的のみで行われています。当社のモデル、データセット、コードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、公正性に関する潜在的な問題を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用される法律に準拠し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオでは、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社の標準的な AUP および AI AUP を参照してください。