🚀 Rho-1:并非所有令牌都是你所需要的
Rho-1是一种采用选择性语言建模(SLM)进行预训练的模型,通过聚焦于有用且干净的令牌,提升了在GSM8k和MATH等数据集上的少样本准确率,并且能更快地达到基线性能。
🚀 快速开始
评估
git clone git@github.com:microsoft/rho.git
cd rho-1/math-evaluation-harness
基础模型少样本评估:
bash scripts/run_eval.sh cot microsoft/rho-math-7b-v0.1
SFT模型(代码解释器)评估:
bash scripts/run_eval.sh tora microsoft/rho-math-7b-interpreter-v0.1
我们复现的输出结果存于rho-1/outputs.zip
中。
✨ 主要特性
选择性语言建模(SLM)
图1:Rho-1采用选择性语言建模(SLM)进行预训练。SLM使GSM8k和MATH上的平均少样本准确率提高了16%以上,能以5 - 10倍的速度达到基线性能。
图2:上方:即使是经过大量过滤的预训练语料库也包含令牌级别的噪声。左方:之前的因果语言建模(CLM)对所有令牌进行训练。右方:我们提出的选择性语言建模(SLM)有选择地对那些有用且干净的令牌应用损失。
图3:选择性语言建模的流程。SLM通过在预训练期间专注于有价值、干净的令牌来优化语言模型性能。它包括三个步骤:(步骤1)首先,在高质量数据上训练一个参考模型。(步骤2)然后,使用参考模型对语料库中每个令牌的损失进行评分。(步骤3)最后,有选择地对那些与参考损失相比显示出更高超额损失的令牌训练语言模型。
评估结果
基础模型(少样本思维链)
模型 |
规模 |
数据 |
唯一令牌 |
训练令牌 |
GSM8K |
MATH |
MMLU STEM |
SAT |
1 - 2B基础模型 |
|
|
|
|
|
|
|
|
Qwen1.5 |
1.8B |
- |
- |
- |
36.1 |
6.8 |
31.3 |
40.6 |
Gemma |
2.0B |
- |
- |
- |
18.8 |
11.4 |
34.4 |
50.0 |
DeepSeekMath |
1.3B |
- |
120B |
150B |
23.8 |
13.6 |
33.1 |
56.3 |
Rho - Math - 1B - v0.1 |
1.1B |
OWM |
14B |
30B |
36.2 |
15.6 |
23.3 |
28.1 |
>= 7B基础模型 |
|
|
|
|
|
|
|
|
Mistral |
7B |
|
- |
- |
41.2 |
11.6 |
49.5 |
59.4 |
Minerva |
540B |
- |
39B |
26B |
58.8 |
33.6 |
63.9 |
- |
LLemma |
34B |
PPile |
55B |
50B |
54.2 |
23.0 |
54.7 |
68.8 |
InternLM2 - Math |
20B |
- |
31B |
125B |
65.4 |
30.0 |
53.1 |
71.9 |
DeepSeekMath |
7B |
- |
120B |
500B |
64.1 |
34.2 |
56.4 |
84.4 |
Rho - Math - 7B - v0.1 |
7B |
OWM |
14B |
10.5B |
66.9 |
31.0 |
54.6 |
84.4 |
模型 |
规模 |
SFT数据 |
GSM8k |
MATH |
SVAMP |
ASDiv |
MAWPS |
TabMWP |
GSM - Hard |
平均 |
gpt4 - early (pal) |
- |
- |
94.2 |
51.8 |
94.8 |
92.6 |
97.7 |
95.9 |
77.6 |
86.4 |
gpt - 4 - turbo - 2024 - 04 - 09 (cot) |
- |
- |
- |
73.4 |
- |
- |
- |
- |
- |
- |
开源小模型 |
|
|
|
|
|
|
|
|
|
|
MAmmoTH |
70B |
MI - 260k |
76.9 |
41.8 |
82.4 |
- |
- |
- |
- |
- |
ToRA |
7B |
ToRA - 69k |
68.8 |
40.1 |
68.2 |
73.9 |
88.8 |
42.4 |
54.6 |
62.4 |
ToRA |
70B |
ToRA - 69k |
84.3 |
49.7 |
82.7 |
86.8 |
93.8 |
74.0 |
67.2 |
76.9 |
DeepSeekMath |
7B |
ToRA - 69k |
79.8 |
52.0 |
80.1 |
87.1 |
93.8 |
85.8 |
63.1 |
77.4 |
Rho - Math - 1B - Interpreter - v0.1 |
1B |
ToRA - 69k |
59.4 |
40.6 |
60.7 |
74.2 |
88.6 |
26.7 |
48.1 |
56.9 |
Rho - Math - 7B - Interpreter - v0.1 |
7B |
ToRA - 69k |
81.3 |
51.8 |
80.8 |
85.5 |
94.5 |
70.1 |
63.1 |
75.3 |
📄 许可证
本项目采用MIT许可证。
☕️ 引用
如果您觉得这个仓库有用,请考虑引用我们的论文:
@misc{lin2024rho1,
title={Rho-1: Not All Tokens Are What You Need},
author={Zhenghao Lin and Zhibin Gou and Yeyun Gong and Xiao Liu and Yelong Shen and Ruochen Xu and Chen Lin and Yujiu Yang and Jian Jiao and Nan Duan and Weizhu Chen},
year={2024},
eprint={2404.07965},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
相关链接
[📜 Arxiv] •
[💬 HF Paper] •
[🤗 Models] •
[🐱 GitHub]