LLaMA-3-8B-SFR-Iterative-DPO-Rオープンソースモデル - 指示最適化における複数評価で同規模モデルを上回る

ホーム

Llama 3 8B SFR Iterative DPO R

Salesforceによって開発

Llama-3-8Bベースの命令最適化モデルで、反復型DPO強化学習トレーニングを採用し、複数のベンチマークテストで同規模および一部の大規模モデルを上回る

大規模言語モデル

Transformers

#オンラインRLHF最適化 #命令微調整モデル #マルチベンチマークSOTA

ダウンロード数 55

リリース時間 : 5/9/2024

モデル概要

強化学習で最適化されたオープンソース命令モデルで、対話品質とタスク遂行能力の向上に焦点を当て、様々な自然言語処理タスクに適用可能

モデル特徴

反復型DPOトレーニング

革新的なオンラインRLHFトレーニング手法を採用し、従来のPPO方法よりも効率的でチューニングが容易

卓越した性能

Alpaca-Eval-V2、MT-BenchなどのベンチマークでGPT-3.5-turboなどの商用モデルを上回る

純粋なオープンソースデータトレーニング

完全にオープンソースデータセットでトレーニングされ、人/GPT4による注釈データは一切使用していない

モデル能力

自然言語理解

命令追従

マルチターン対話

テキスト生成

質問応答

使用事例

インテリジェントアシスタント

パーソナライズドラーニングアシスタント

書道学習アドバイスなどの個別指導

構造化された実用的な学習アドバイスを提供可能

カスタマーサポートシステム

自動化カスタマーサポート

一般的な顧客問い合わせの処理

効率的かつ正確な応答能力

🚀 Llama-3-8B-SFR-Iterative-DPO-R

このモデルは最先端の指示応答モデルです。Alpaca-Eval-V2、MT-Bench、Chat-Arena-Hard という3つの広く使われている指示応答モデルのベンチマークで、同規模のモデルや多くの大規模オープンソースモデル、強力なプロプライエタリモデルを上回る性能を発揮します。また、オープンソースのデータセットのみを使って学習されており、追加の人間やGPT4によるラベリングは行われていません。

✨ 主な機能

最先端の指示応答性能を持ち、多くのベンチマークで高いスコアを獲得。
オープンソースのデータセットのみを使用した学習で、追加のラベリング不要。
簡単で効率的なオンラインRLHFレシピによる学習。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" 

model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")

messages = [
    {"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]

model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = model_inputs.to(device)
model.to(device)

output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])

📚 ドキュメント

モデルのリリース

学習方法

LLMの指示応答学習のために、簡単で効率的なオンラインRLHFレシピを開発しました。このレシピはDPOベースであり、PPOベースのアプローチと比較して、学習とチューニングがはるかに安価で簡単です。また、広く使われているオフラインDPOとは異なり、オンラインコンポーネントによって、ポリシー最適化中の分布シフトを効果的に軽減します。詳細については、付属の技術レポートを参照してください。

チャットベンチマーク

モデル	サイズ	方法	LC Alpaca-Eval-V2	MT-Bench	Chat-Arena-Hard
小規模オープンソースモデル
Gemma-7B-it	7B	SFT	10.4	6.38	7.5
Zephyr-7B-beta	7B	Vanilla DPO	13.1	7.34	-
Mistral-7B-v0.2-it	7B	SFT	17.1	7.51	12.6
Open-Chat-0106	7B	SFT	15.6	7.8	-
Starling-7B-beta	7B	PPO	25.8	8.12	23.0
LLaMA-3-8B-it	8B	RS+DPO+PPO	22.9	8.16	20.6
当社モデル
当社モデル (SFTベースライン)	8B	SFT	10.2	7.69	5.6
当社モデル (DPOベースライン)	8B	Vanilla DPO	22.5	8.17	22.4
当社モデル (オンラインRLHF)	8B	Iterative DPO	31.3	8.46	29.1
大規模オープンソースモデル
Vicuna-33b-v1.3	33B	SFT	17.6	7.12	8.6
Yi-34B-Chat	34B	SFT	27.2	-	23.1
Mixtral-8x7B-it	45B*	SFT	23.7	8.30	23.4
Tulu-2-DPO-70B	70B	Vanilla DPO	21.2	7.89	15.0
LLaMA-3-70B-it	70B	RS+DPO+PPO	34.4	8.95	41.1
Mixtral-8x22B-it	141B*	SFT	30.9	8.66	36.4
プロプライエタリモデル
GPT-3.5-turbo-1106	-	-	19.3	8.35	18.9
GPT-3.5-turbo-0613	-	-	22.7	8.39	24.8
GPT-4-0613	-	-	30.2	9.18	37.9
Claude-3-Opus	-	-	40.5	9.00	60.4
GPT-4 Turbo (04/09)	-	-	55.0	-	82.6

学術ベンチマーク

モデル	サイズ	方法	GSM-8K	MMLU	HumanEval	TruthfulQA	ARC	MBPP
LLaMA-3-8B-it	8B	RS+DPO+PPO	79.6	66.0	61.6	43.9	59.5	61.1
当社モデル (SFTベースライン)	8B	SFT	74.2	64.7	65.2	53.4	61.4	62.3
当社モデル (DPOベースライン)	8B	Vanilla DPO	79.8	64.5	63.4	61.8	65.2	60.3
当社モデル (Iterative RLHF)	8B	Iterative DPO	80.7	65.3	64.6	60.4	64.3	60.8

🔧 技術詳細

このREADMEには具体的な技術詳細が十分に記載されていないため、このセクションをスキップします。

📄 ライセンス

このモデルのライセンスはllama3です。

制限事項

Llama-3-8B-SFR-Iterative-DPO-Rは、SalesforceにおけるRLHFイニシアチブの一環として開発された研究用モデルです。安全性と倫理性の考慮はアライメントプロセスに組み込まれていますが、特に敵対的な条件下では、モデルが不快な内容や非倫理的な内容を生成する可能性が残っています。当社は、このようなリスクを最小限に抑えるためにモデルの継続的な改善に取り組んでおり、責任ある使用を促します。

引用

当社のモデルが役立つと思われる場合は、以下の論文を引用してください。

@misc{dong2024rlhf,
      title={RLHF Workflow: From Reward Modeling to Online RLHF}, 
      author={Hanze Dong* and Wei Xiong* and Bo Pang* and Haoxiang Wang* and Han Zhao and Yingbo Zhou and Nan Jiang and Doyen Sahoo and Caiming Xiong and Tong Zhang},
      year={2024},
      eprint={2405.07863},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

@misc{xiong2024iterative,
      title={Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint}, 
      author={Wei Xiong and Hanze Dong and Chenlu Ye and Ziqi Wang and Han Zhong and Heng Ji and Nan Jiang and Tong Zhang},
      year={2024},
      eprint={2312.11456},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

エシックスに関する免責事項

このリリースは学術論文の支援のための研究目的のみで行われています。当社のモデル、データセット、コードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、公正性に関する潜在的な問題を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用される法律に準拠し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオでは、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社の標準的な AUP および AI AUP を参照してください。