🚀 Rho-1: Not All Tokens Are What You Need
Rho-1は、Selective Language Modeling (SLM) を用いて事前学習されたモデルです。SLMにより、GSM8kやMATHでの平均的なFew-shot精度が16%以上向上し、ベースラインの性能を5 - 10倍速く達成することができます。
🚀 クイックスタート
評価
git clone git@github.com:microsoft/rho.git
cd rho-1/math-evaluation-harness
ベースモデルのFew-shot評価:
bash scripts/run_eval.sh cot microsoft/rho-math-7b-v0.1
SFTモデル (コードインタープリター) の評価:
bash scripts/run_eval.sh tora microsoft/rho-math-7b-interpreter-v0.1
再現した出力は rho-1/outputs.zip
に提供されています。
✨ 主な機能
Selective Lanugage Modeling (SLM)
図2:
上: 広範にフィルタリングされた事前学習コーパスでも、トークンレベルのノイズが含まれます。
左: 従来のCausal Language Modeling (CLM) はすべてのトークンで学習します。
右: 我々が提案するSelective Language Modeling (SLM) は、有用でクリーンなトークンに対して選択的に損失を適用します。
図3: Selective Language Modelingのパイプライン。
SLMは、事前学習中に価値のあるクリーンなトークンに集中することで、言語モデルの性能を最適化します。
3つのステップから成ります:
(ステップ1) まず、高品質データで参照モデルを学習させます。
(ステップ2) 次に、参照モデルを使用してコーパス内の各トークンの損失をスコアリングします。
(ステップ3) 最後に、参照損失に比べて高い過剰損失を示すトークンで選択的に言語モデルを学習させます。
評価結果
ベースモデル (Few-shot CoT):
モデル |
サイズ |
データ |
一意のトークン |
学習トークン |
GSM8K |
MATH |
MMLU STEM |
SAT |
1 - 2Bベースモデル |
|
|
|
|
|
|
|
|
Qwen1.5 |
1.8B |
- |
- |
- |
36.1 |
6.8 |
31.3 |
40.6 |
Gemma |
2.0B |
- |
- |
- |
18.8 |
11.4 |
34.4 |
50.0 |
DeepSeekMath |
1.3B |
- |
120B |
150B |
23.8 |
13.6 |
33.1 |
56.3 |
Rho-Math-1B-v0.1 |
1.1B |
OWM |
14B |
30B |
36.2 |
15.6 |
23.3 |
28.1 |
>= 7Bベースモデル |
|
|
|
|
|
|
|
|
Mistral |
7B |
|
- |
- |
41.2 |
11.6 |
49.5 |
59.4 |
Minerva |
540B |
- |
39B |
26B |
58.8 |
33.6 |
63.9 |
- |
LLemma |
34B |
PPile |
55B |
50B |
54.2 |
23.0 |
54.7 |
68.8 |
InternLM2-Math |
20B |
- |
31B |
125B |
65.4 |
30.0 |
53.1 |
71.9 |
DeepSeekMath |
7B |
- |
120B |
500B |
64.1 |
34.2 |
56.4 |
84.4 |
Rho-Math-7B-v0.1 |
7B |
OWM |
14B |
10.5B |
66.9 |
31.0 |
54.6 |
84.4 |
ツール統合推論 (コードインタープリター):
モデル |
サイズ |
SFTデータ |
GSM8k |
MATH |
SVAMP |
ASDiv |
MAWPS |
TabMWP |
GSM-Hard |
AVG |
gpt4-early (pal) |
- |
- |
94.2 |
51.8 |
94.8 |
92.6 |
97.7 |
95.9 |
77.6 |
86.4 |
gpt-4-turbo-2024-04-09 (cot) |
- |
- |
- |
73.4 |
- |
- |
- |
- |
- |
|
オープンソース小規模モデル |
|
|
|
|
|
|
|
|
|
|
MAmmoTH |
70B |
MI - 260k |
76.9 |
41.8 |
82.4 |
- |
- |
- |
- |
- |
ToRA |
7B |
ToRA - 69k |
68.8 |
40.1 |
68.2 |
73.9 |
88.8 |
42.4 |
54.6 |
62.4 |
ToRA |
70B |
ToRA - 69k |
84.3 |
49.7 |
82.7 |
86.8 |
93.8 |
74.0 |
67.2 |
76.9 |
DeepSeekMath |
7B |
ToRA - 69k |
79.8 |
52.0 |
80.1 |
87.1 |
93.8 |
85.8 |
63.1 |
77.4 |
Rho-Math-1B-Interpreter-v0.1 |
1B |
ToRA - 69k |
59.4 |
40.6 |
60.7 |
74.2 |
88.6 |
26.7 |
48.1 |
56.9 |
Rho-Math-7B-Interpreter-v0.1 |
7B |
ToRA - 69k |
81.3 |
51.8 |
80.8 |
85.5 |
94.5 |
70.1 |
63.1 |
75.3 |
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
☕️ 引用
もしこのリポジトリが役に立った場合、以下のように論文を引用してください。
@misc{lin2024rho1,
title={Rho-1: Not All Tokens Are What You Need},
author={Zhenghao Lin and Zhibin Gou and Yeyun Gong and Xiao Liu and Yelong Shen and Ruochen Xu and Chen Lin and Yujiu Yang and Jian Jiao and Nan Duan and Weizhu Chen},
year={2024},
eprint={2404.07965},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
[📜 Arxiv] •
[💬 HF Paper] •
[🤗 モデル] •
[🐱 GitHub]
図1: Rho-1は、Selective Language Modeling (SLM) で事前学習されています。SLMにより、GSM8kとMATHでの平均的なFew-shot精度が16%以上向上し、ベースラインの性能を5 - 10倍速く達成します。
🔥 ニュース
- [2024/04/12] 🔥🔥🔥 Rho-Math-v0.1モデルが🤗 HuggingFaceで公開されました!
- [2024/04/11] Rho-1の論文とリポジトリが公開されました。