🚀 Rho-1:並非所有令牌都是你所需要的
Rho-1是一種採用選擇性語言建模(SLM)進行預訓練的模型,通過聚焦於有用且乾淨的令牌,提升了在GSM8k和MATH等數據集上的少樣本準確率,並且能更快地達到基線性能。
🚀 快速開始
評估
git clone git@github.com:microsoft/rho.git
cd rho-1/math-evaluation-harness
基礎模型少樣本評估:
bash scripts/run_eval.sh cot microsoft/rho-math-7b-v0.1
SFT模型(代碼解釋器)評估:
bash scripts/run_eval.sh tora microsoft/rho-math-7b-interpreter-v0.1
我們復現的輸出結果存於rho-1/outputs.zip
中。
✨ 主要特性
選擇性語言建模(SLM)
圖1:Rho-1採用選擇性語言建模(SLM)進行預訓練。SLM使GSM8k和MATH上的平均少樣本準確率提高了16%以上,能以5 - 10倍的速度達到基線性能。
圖2:上方:即使是經過大量過濾的預訓練語料庫也包含令牌級別的噪聲。左方:之前的因果語言建模(CLM)對所有令牌進行訓練。右方:我們提出的選擇性語言建模(SLM)有選擇地對那些有用且乾淨的令牌應用損失。
圖3:選擇性語言建模的流程。SLM通過在預訓練期間專注於有價值、乾淨的令牌來優化語言模型性能。它包括三個步驟:(步驟1)首先,在高質量數據上訓練一個參考模型。(步驟2)然後,使用參考模型對語料庫中每個令牌的損失進行評分。(步驟3)最後,有選擇地對那些與參考損失相比顯示出更高超額損失的令牌訓練語言模型。
評估結果
基礎模型(少樣本思維鏈)
模型 |
規模 |
數據 |
唯一令牌 |
訓練令牌 |
GSM8K |
MATH |
MMLU STEM |
SAT |
1 - 2B基礎模型 |
|
|
|
|
|
|
|
|
Qwen1.5 |
1.8B |
- |
- |
- |
36.1 |
6.8 |
31.3 |
40.6 |
Gemma |
2.0B |
- |
- |
- |
18.8 |
11.4 |
34.4 |
50.0 |
DeepSeekMath |
1.3B |
- |
120B |
150B |
23.8 |
13.6 |
33.1 |
56.3 |
Rho - Math - 1B - v0.1 |
1.1B |
OWM |
14B |
30B |
36.2 |
15.6 |
23.3 |
28.1 |
>= 7B基礎模型 |
|
|
|
|
|
|
|
|
Mistral |
7B |
|
- |
- |
41.2 |
11.6 |
49.5 |
59.4 |
Minerva |
540B |
- |
39B |
26B |
58.8 |
33.6 |
63.9 |
- |
LLemma |
34B |
PPile |
55B |
50B |
54.2 |
23.0 |
54.7 |
68.8 |
InternLM2 - Math |
20B |
- |
31B |
125B |
65.4 |
30.0 |
53.1 |
71.9 |
DeepSeekMath |
7B |
- |
120B |
500B |
64.1 |
34.2 |
56.4 |
84.4 |
Rho - Math - 7B - v0.1 |
7B |
OWM |
14B |
10.5B |
66.9 |
31.0 |
54.6 |
84.4 |
模型 |
規模 |
SFT數據 |
GSM8k |
MATH |
SVAMP |
ASDiv |
MAWPS |
TabMWP |
GSM - Hard |
平均 |
gpt4 - early (pal) |
- |
- |
94.2 |
51.8 |
94.8 |
92.6 |
97.7 |
95.9 |
77.6 |
86.4 |
gpt - 4 - turbo - 2024 - 04 - 09 (cot) |
- |
- |
- |
73.4 |
- |
- |
- |
- |
- |
- |
開源小模型 |
|
|
|
|
|
|
|
|
|
|
MAmmoTH |
70B |
MI - 260k |
76.9 |
41.8 |
82.4 |
- |
- |
- |
- |
- |
ToRA |
7B |
ToRA - 69k |
68.8 |
40.1 |
68.2 |
73.9 |
88.8 |
42.4 |
54.6 |
62.4 |
ToRA |
70B |
ToRA - 69k |
84.3 |
49.7 |
82.7 |
86.8 |
93.8 |
74.0 |
67.2 |
76.9 |
DeepSeekMath |
7B |
ToRA - 69k |
79.8 |
52.0 |
80.1 |
87.1 |
93.8 |
85.8 |
63.1 |
77.4 |
Rho - Math - 1B - Interpreter - v0.1 |
1B |
ToRA - 69k |
59.4 |
40.6 |
60.7 |
74.2 |
88.6 |
26.7 |
48.1 |
56.9 |
Rho - Math - 7B - Interpreter - v0.1 |
7B |
ToRA - 69k |
81.3 |
51.8 |
80.8 |
85.5 |
94.5 |
70.1 |
63.1 |
75.3 |
📄 許可證
本項目採用MIT許可證。
☕️ 引用
如果您覺得這個倉庫有用,請考慮引用我們的論文:
@misc{lin2024rho1,
title={Rho-1: Not All Tokens Are What You Need},
author={Zhenghao Lin and Zhibin Gou and Yeyun Gong and Xiao Liu and Yelong Shen and Ruochen Xu and Chen Lin and Yujiu Yang and Jian Jiao and Nan Duan and Weizhu Chen},
year={2024},
eprint={2404.07965},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
相關鏈接
[📜 Arxiv] •
[💬 HF Paper] •
[🤗 Models] •
[🐱 GitHub]