开源Gemma-2-9b-it-SimPO模型 - 助力偏好优化任务高效完成

首页

Gemma 2 9b It SimPO

由 princeton-nlp 开发

基于SimPO目标在gemma2-ultrafeedback-armorm数据集上微调的Gemma 2.9B模型，用于偏好优化任务

大型语言模型

Transformers

开源协议:MIT #偏好优化 #无参考模型 #语言模型对齐

下载量 21.34k

发布时间 : 7/16/2024

模型简介

该模型是使用SimPO（简单偏好优化）算法在Gemma 2.9B基础上微调得到的，旨在通过偏好优化数据集增强大语言模型的训练效果。

模型特点

SimPO优化算法

采用简单偏好优化算法，无需参考模型，通过奖励函数与生成概率对齐提升性能

高效训练

在8块H100 GPU上仅需约100分钟即可完成微调

性能提升

相比基础模型，在多个评估指标上表现更优

模型能力

文本生成

偏好优化

问答系统

对话系统

使用案例

对话系统

智能问答

用于构建知识问答系统

在AE2 LC评估中达到72.4分

内容生成

长文本生成

生成较长的连贯文本

平均生成长度1833个token

🚀 gemma-2-9b-it-SimPO 模型卡片

SimPO（简单偏好优化）是一种离线偏好优化算法，旨在利用偏好优化数据集来改进大语言模型（LLM）的训练。SimPO使奖励函数与生成可能性保持一致，无需参考模型，并引入目标奖励裕度来提升性能。更多详细信息，请参考我们的预印本和GitHub仓库。

🚀 快速开始

以下是如何开始使用该模型的示例代码：

import torch
from transformers import pipeline

model_id = "princeton-nlp/gemma-2-9b-it-SimPO"

generator = pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)
outputs = generator([{"role": "user", "content": "What's the difference between llamas and alpacas?"}],
                      do_sample=False,
                      eos_token_id=[generator.tokenizer.convert_tokens_to_ids("<end_of_turn>"), generator.tokenizer.eos_token_id],
                      max_new_tokens=200)
print(outputs[0]['generated_text'])

✨ 主要特性

SimPO算法可有效提升大语言模型在偏好优化数据集上的训练效果。
使奖励函数与生成可能性对齐，无需参考模型。
引入目标奖励裕度，提升模型性能。

📦 安装指南

文档未提供具体安装步骤，故跳过该章节。

💻 使用示例

基础用法

import torch
from transformers import pipeline

model_id = "princeton-nlp/gemma-2-9b-it-SimPO"

generator = pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)
outputs = generator([{"role": "user", "content": "What's the difference between llamas and alpacas?"}],
                      do_sample=False,
                      eos_token_id=[generator.tokenizer.convert_tokens_to_ids("<end_of_turn>"), generator.tokenizer.eos_token_id],
                      max_new_tokens=200)
print(outputs[0]['generated_text'])

📚 详细文档

模型详情

模型描述

我们使用SimPO目标，在princeton-nlp/gemma2-ultrafeedback-armorm数据集上对google/gemma-2-9b-it进行了微调。

属性	详情
开发者	Yu Meng, Mengzhou Xia, Danqi Chen
模型类型	因果语言模型
许可证	gemma
微调基础模型	google/gemma-2-9b-it

模型来源

仓库地址：https://github.com/princeton-nlp/SimPO
论文地址：https://arxiv.org/pdf/2405.14734

训练详情

训练数据

我们使用princeton-nlp/gemma2-ultrafeedback-armorm作为偏好优化数据集。

训练超参数

所用的超参数可在训练脚本中找到。

速度、大小和时间

在8xH100 GPU上，对google/gemma-2-9b-it在princeton-nlp/gemma2-ultrafeedback-armorm数据集上进行微调大约需要100分钟。

评估结果

模型	AE2 LC	AE2 WR	AE2 长度	AH	AH 长度	GSM	GSM 长度	MMLU	MMLU 长度
google/gemma-2-9b-it	51.1	38.1	1571	40.8	545	87.4	395	72.7	515
princeton-nlp/gemma-2-9b-it-DPO	67.8	65.4	2016	58.9	717	88.5	392	72.2	624
princeton-nlp/gemma-2-9b-it-SimPO	72.4	65.9	1833	59.1	693	88.0	341	72.2	441

🔧 技术细节

模型架构和目标

模型架构基于google/gemma-2-9b-it。我们使用了在预印本中提出的SimPO训练目标。

硬件

我们使用8xH100 GPU进行模型训练。

软件

训练使用了alignment-handbook库。

📄 许可证

该模型使用MIT许可证。

📖 引用

gemma模型

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

SimPO论文

@article{meng2024simpo,
  title={{SimPO}: Simple preference optimization with a reference-free reward},
  author={Meng, Yu and Xia, Mengzhou and Chen, Danqi},
  journal={arXiv preprint arXiv:2405.14734},
  year={2024}
}

UltraFeedback论文

@article{cui2023ultrafeedback,
  title={{UltraFeedback}: Boosting language models with high-quality feedback},
  author={Cui, Ganqu and Yuan, Lifan and Ding, Ning and Yao, Guanming and Zhu, Wei and Ni, Yuan and Xie, Guotong and Liu, Zhiyuan and Sun, Maosong},
  journal={arXiv preprint arXiv:2310.01377},
  year={2023}
}

ArmoRM论文

@article{wang2024interpretable,
  title={Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts},
  author={Wang, Haoxiang and Xiong, Wei and Xie, Tengyang and Zhao, Han and Zhang, Tong},
  journal={arXiv preprint arXiv:2406.12845},
  year={2024}
}