Llama-3-Instruct-8B-SPPO-Iter3オープンソース大規模言語モデル - 無料でのデプロイでスマートな対話交流をサポート

Home

Llama 3 Instruct 8B SPPO Iter3

Developed by UCLA-AGI

Meta-Llama-3-8B-Instructアーキテクチャに基づき、Self-Play Preference Optimization方法を用いて第三次反復で開発された大規模言語モデル。

大規模言語モデル

Transformers

EnglishOpen Source License:Apache-2.0 #自己対戦最適化 #合成データ訓練 #マルチタスク評価

Downloads 8,539

Release Time : 6/25/2024

Model Overview

このモデルは自己対戦と嗜好最適化によりアライメント能力を向上させ、合成データセットで訓練することで汎化能力を高めています。

Model Features

Self-Play Preference Optimization

先進的な自己対戦嗜好最適化方法を用いて微調整し、モデルのアライメント能力を向上させます。

合成データ訓練

合成データセットを使用して訓練することで、モデルの汎化能力を強化しました。

反復最適化

三次の反復最適化を経て、性能が段階的に向上しました。

Model Capabilities

テキスト生成

命令遵守

マルチラウンド対話

Use Cases

対話システム

スマートアシスタント

スマート対話アシスタントの構築に使用でき、自然でスムーズな対話体験を提供します。

コンテンツ生成

テキスト創作

記事、物語など様々なタイプのテキストコンテンツの生成に使用できます。

🚀 Llama-3-Instruct-8B-SPPO-Iter3

このモデルは、Self-Play Preference Optimization の3回目の反復で開発されました。開始点として meta-llama/Meta-Llama-3-8B-Instruct アーキテクチャを使用しています。openbmb/UltraFeedback データセットのプロンプトセットを利用し、snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset によって3回の反復のために3つの部分に分割されました。使用されるすべての応答は合成されたものです。

🚀 クイックスタート

このセクションでは、Llama-3-Instruct-8B-SPPO-Iter3モデルに関する基本的な情報を提供します。

✨ 主な機能

合成データセットで微調整された80億パラメータのGPTライクモデルです。
主に英語に対応しています。

📚 ドキュメント

他のモデルへのリンク

モデルの説明

属性	详情
モデルタイプ	合成データセットで微調整された80億パラメータのGPTライクモデル
言語 (NLP)	主に英語
ライセンス	Apache-2.0
微調整元のモデル	meta-llama/Meta-Llama-3-8B-Instruct

AlpacaEvalリーダーボード評価結果

モデル	LC.勝率	勝率	平均長
Llama-3-8B-SPPO Iter1	31.73	31.74	1962
Llama-3-8B-SPPO Iter2	35.15	35.98	2021
Llama-3-8B-SPPO Iter3	38.77	39.85	2066

Open LLM Leaderboard評価結果

結果は lm-evaluation-harness v0.4.1 を使用して報告されています。

	arc_challenge	truthfulqa_mc2	winogrande	gsm8k	hellaswag	mmlu	平均
Llama-3-8B-SPPO Iter1	63.82	54.96	76.40	75.44	79.80	65.65	69.35
Llama-3-8B-SPPO Iter2	64.93	56.48	76.87	75.13	80.39	65.67	69.91
Llama-3-8B-SPPO Iter3	65.19	58.04	77.11	74.91	80.86	65.60	70.29

Open LLM Leaderboard 2評価結果

詳細な結果はこちらで確認できます。

メトリック	値
平均	23.68
IFEval (0-Shot)	68.28
BBH (3-Shot)	29.74
MATH Lvl 5 (4-Shot)	7.33
GPQA (0-shot)	2.01
MuSR (0-shot)	3.09
MMLU-PRO (5-shot)	29.38

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 5e-07
eta: 1000
デバイスごとの学習バッチサイズ: 8
勾配累積ステップ: 1
シード: 42
分散タイプ: deepspeed_zero3
デバイス数: 8
オプティマイザ: RMSProp
学習率スケジューラタイプ: linear
学習率スケジューラウォームアップ比率: 0.1
学習エポック数: 6.0 (エポック=1.0で停止)

🔧 技術詳細

Self-Play Preference Optimization for Language Model Alignment (https://arxiv.org/abs/2405.00675) の手法を用いて開発されています。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

引用

@misc{wu2024self,
      title={Self-Play Preference Optimization for Language Model Alignment}, 
      author={Wu, Yue and Sun, Zhiqing and Yuan, Huizhuo and Ji, Kaixuan and Yang, Yiming and Gu, Quanquan},
      year={2024},
      eprint={2405.00675},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}