rho-math-1b-v0.1オープンソース数学言語モデル - 数学問題解決の正解率を大幅に向上

ホーム

Rho Math 1b V0.1

microsoftによって開発

Rho-1は数学分野に特化した言語モデルで、選択的言語モデリング(SLM)手法を用いて事前学習を行い、数学問題解決の正解率を大幅に向上させました。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #選択的言語モデリング #数学的推論の最適化 #効率的な事前学習

ダウンロード数 1,451

リリース時間 : 4/11/2024

モデル概要

Rho-1の基礎モデルは選択的言語モデリング(SLM)を用いて事前学習を行い、目標分布に一致する質の高い有効なトークンのみを選択して学習し、数学タスクで優れた性能を発揮します。

モデル特徴

選択的言語モデリング(SLM)

目標分布に一致する質の高い有効なトークンのみを選択して学習し、学習効率とモデル性能を向上させます。

効率的な学習

ベースライン性能に到達するのにわずか5 - 10倍の学習時間で済み、計算資源の消費を大幅に削減します。

数学特化

GSM8kとMATHデータセットで優れた性能を発揮し、少サンプル正解率が16%以上向上します。

モデル能力

数学問題の解決

少サンプル学習

思考過程の推論

使用事例

教育

数学問題の解答

学生が様々な数学問題を解くのを支援します。

GSM8kデータセットで36.2%の少サンプル正解率を達成しました。

研究

数学的推論の研究

言語モデルの数学的推論能力を研究するために使用されます。

MATHデータセットで15.6%の少サンプル正解率を達成しました。

🚀 Rho-1: Not All Tokens Are What You Need

Rho-1は、Selective Language Modeling (SLM) を用いて事前学習されたモデルです。SLMにより、GSM8kやMATHでの平均的なFew-shot精度が16%以上向上し、ベースラインの性能を5 - 10倍速く達成することができます。

🚀 クイックスタート

評価

git clone git@github.com:microsoft/rho.git
cd rho-1/math-evaluation-harness

ベースモデルのFew-shot評価:

bash scripts/run_eval.sh cot microsoft/rho-math-7b-v0.1

SFTモデル (コードインタープリター) の評価:

bash scripts/run_eval.sh tora microsoft/rho-math-7b-interpreter-v0.1

再現した出力は rho-1/outputs.zip に提供されています。

✨ 主な機能

Selective Lanugage Modeling (SLM)

図2: 上: 広範にフィルタリングされた事前学習コーパスでも、トークンレベルのノイズが含まれます。左: 従来のCausal Language Modeling (CLM) はすべてのトークンで学習します。右: 我々が提案するSelective Language Modeling (SLM) は、有用でクリーンなトークンに対して選択的に損失を適用します。

図3: Selective Language Modelingのパイプライン。 SLMは、事前学習中に価値のあるクリーンなトークンに集中することで、言語モデルの性能を最適化します。 3つのステップから成ります: (ステップ1) まず、高品質データで参照モデルを学習させます。 (ステップ2) 次に、参照モデルを使用してコーパス内の各トークンの損失をスコアリングします。 (ステップ3) 最後に、参照損失に比べて高い過剰損失を示すトークンで選択的に言語モデルを学習させます。

評価結果

ベースモデル (Few-shot CoT):

モデル	サイズ	データ	一意のトークン	学習トークン	GSM8K	MATH	MMLU STEM	SAT
1 - 2Bベースモデル
Qwen1.5	1.8B	-	-	-	36.1	6.8	31.3	40.6
Gemma	2.0B	-	-	-	18.8	11.4	34.4	50.0
DeepSeekMath	1.3B	-	120B	150B	23.8	13.6	33.1	56.3
Rho-Math-1B-v0.1	1.1B	OWM	14B	30B	36.2	15.6	23.3	28.1
>= 7Bベースモデル
Mistral	7B		-	-	41.2	11.6	49.5	59.4
Minerva	540B	-	39B	26B	58.8	33.6	63.9	-
LLemma	34B	PPile	55B	50B	54.2	23.0	54.7	68.8
InternLM2-Math	20B	-	31B	125B	65.4	30.0	53.1	71.9
DeepSeekMath	7B	-	120B	500B	64.1	34.2	56.4	84.4
Rho-Math-7B-v0.1	7B	OWM	14B	10.5B	66.9	31.0	54.6	84.4

ツール統合推論 (コードインタープリター):

モデル	サイズ	SFTデータ	GSM8k	MATH	SVAMP	ASDiv	MAWPS	TabMWP	GSM-Hard	AVG
gpt4-early (pal)	-	-	94.2	51.8	94.8	92.6	97.7	95.9	77.6	86.4
gpt-4-turbo-2024-04-09 (cot)	-	-	-	73.4	-	-	-	-	-
オープンソース小規模モデル
MAmmoTH	70B	MI - 260k	76.9	41.8	82.4	-	-	-	-	-
ToRA	7B	ToRA - 69k	68.8	40.1	68.2	73.9	88.8	42.4	54.6	62.4
ToRA	70B	ToRA - 69k	84.3	49.7	82.7	86.8	93.8	74.0	67.2	76.9
DeepSeekMath	7B	ToRA - 69k	79.8	52.0	80.1	87.1	93.8	85.8	63.1	77.4
Rho-Math-1B-Interpreter-v0.1	1B	ToRA - 69k	59.4	40.6	60.7	74.2	88.6	26.7	48.1	56.9
Rho-Math-7B-Interpreter-v0.1	7B	ToRA - 69k	81.3	51.8	80.8	85.5	94.5	70.1	63.1	75.3

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

☕️ 引用

もしこのリポジトリが役に立った場合、以下のように論文を引用してください。

@misc{lin2024rho1,
      title={Rho-1: Not All Tokens Are What You Need}, 
      author={Zhenghao Lin and Zhibin Gou and Yeyun Gong and Xiao Liu and Yelong Shen and Ruochen Xu and Chen Lin and Yujiu Yang and Jian Jiao and Nan Duan and Weizhu Chen},
      year={2024},
      eprint={2404.07965},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

[📜 Arxiv] • [💬 HF Paper] • [🤗 モデル] • [🐱 GitHub]

図1: Rho-1は、Selective Language Modeling (SLM) で事前学習されています。SLMにより、GSM8kとMATHでの平均的なFew-shot精度が16%以上向上し、ベースラインの性能を5 - 10倍速く達成します。

🔥 ニュース

[2024/04/12] 🔥🔥🔥 Rho-Math-v0.1モデルが🤗 HuggingFaceで公開されました！
- Rho-Math-1B と Rho-Math-7B は、それぞれMATHデータセットで15.6%と31.0%のFew-shot精度を達成しています — 事前学習トークンのわずか3%でDeepSeekMathに匹敵する性能を発揮します。
- Rho-Math-1B-Interpreter は、MATHで40%以上の精度を達成した最初の1Bの大規模言語モデルです。
- Rho-Math-7B-Interpreter は、MATHデータセットで52%の精度を達成し、ファインチューニングにはわずか69kのサンプルを使用しています。
[2024/04/11] Rho-1の論文とリポジトリが公開されました。