Llama-3-Instruct-8B-SPPO-Iter3開源大語言模型 - 免費部署助力智能對話交流

首頁

Llama 3 Instruct 8B SPPO Iter3

由UCLA-AGI開發

基於Meta-Llama-3-8B-Instruct架構，採用Self-Play Preference Optimization方法在第三次迭代中開發的大語言模型。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #自我博弈優化 #合成數據訓練 #多任務評估

下載量 8,539

發布時間 : 6/25/2024

模型概述

該模型通過自我博弈和偏好優化提升了對齊能力，在合成數據集上進行訓練以提高泛化能力。

模型特點

Self-Play Preference Optimization

採用先進的自我博弈偏好優化方法進行微調，提升模型的對齊能力。

合成數據訓練

使用合成數據集進行訓練，增強了模型的泛化能力。

迭代優化

經過三次迭代優化，性能逐步提升。

模型能力

文本生成

指令遵循

多輪對話

使用案例

對話系統

智能助手

可用於構建智能對話助手，提供自然流暢的交互體驗。

內容生成

文本創作

可用於生成各種類型的文本內容，如文章、故事等。

🚀 Llama-3-Instruct-8B-SPPO-Iter3

本模型基於 meta-llama/Meta-Llama-3-8B-Instruct 架構，採用 Self-Play Preference Optimization 方法在第三次迭代中開發而成。它使用了 openbmb/UltraFeedback 數據集中的提示集，並通過 snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset 分割為 3 部分用於 3 次迭代。所有使用的回覆均為合成數據。

🚀 快速開始

本模型可在 Hugging Face 平臺上使用，你可以根據自己的需求進行調用和微調。

✨ 主要特性

基於先進的 Self-Play Preference Optimization 方法進行微調。
使用合成數據集進行訓練，提升模型的泛化能力。
在多個評估基準上取得了優異的成績。

📚 詳細文檔

模型描述

屬性	詳情
模型類型	一個具有 80 億參數的類 GPT 模型，在合成數據集上進行了微調。
語言	主要為英語
許可證	Apache-2.0
微調基礎模型	meta-llama/Meta-Llama-3-8B-Instruct

其他模型鏈接

AlpacaEval 排行榜評估結果

模型	LC. 勝率	勝率	平均長度
Llama-3-8B-SPPO Iter1	31.73	31.74	1962
Llama-3-8B-SPPO Iter2	35.15	35.98	2021
Llama-3-8B-SPPO Iter3	38.77	39.85	2066

Open LLM 排行榜評估結果

結果使用 lm-evaluation-harness v0.4.1 報告。

	arc_challenge	truthfulqa_mc2	winogrande	gsm8k	hellaswag	mmlu	平均
Llama-3-8B-SPPO Iter1	63.82	54.96	76.40	75.44	79.80	65.65	69.35
Llama-3-8B-SPPO Iter2	64.93	56.48	76.87	75.13	80.39	65.67	69.91
Llama-3-8B-SPPO Iter3	65.19	58.04	77.11	74.91	80.86	65.60	70.29

Open LLM 排行榜 2 評估結果

詳細結果可查看此處。

指標	值
平均	23.68
IFEval (0-Shot)	68.28
BBH (3-Shot)	29.74
MATH Lvl 5 (4-Shot)	7.33
GPQA (0-shot)	2.01
MuSR (0-shot)	3.09
MMLU-PRO (5-shot)	29.38

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e-07
eta：1000
每個設備的訓練批次大小：8
梯度累積步數：1
隨機種子：42
分佈式類型：deepspeed_zero3
設備數量：8
優化器：RMSProp
學習率調度器類型：線性
學習率調度器熱身比例：0.1
訓練輪數：6.0（在第 1.0 輪停止）

🔧 技術細節

本模型基於 Self-Play Preference Optimization 方法進行微調，該方法通過自我博弈和偏好優化來提升模型的對齊能力。模型在合成數據集上進行訓練，以提高其泛化能力。

📄 許可證

本模型採用 Apache-2.0 許可證。

引用

@misc{wu2024self,
      title={Self-Play Preference Optimization for Language Model Alignment}, 
      author={Wu, Yue and Sun, Zhiqing and Yuan, Huizhuo and Ji, Kaixuan and Yang, Yiming and Gu, Quanquan},
      year={2024},
      eprint={2405.00675},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}