rho-math-1b-v0.1開源數學語言模型 - 顯著提升數學問題解決準確率

首頁

Rho Math 1b V0.1

由microsoft開發

Rho-1是一個專注於數學領域的語言模型，通過選擇性語言建模(SLM)方法進行預訓練，顯著提升了數學問題解決的準確率。

大型語言模型

Transformers

英語開源協議:MIT #選擇性語言建模 #數學推理優化 #高效預訓練

下載量 1,451

發布時間 : 4/11/2024

模型概述

Rho-1基礎模型採用選擇性語言建模(SLM)進行預訓練，僅篩選與目標分佈對齊的優質有效標記進行訓練，在數學任務上表現出色。

模型特點

選擇性語言建模(SLM)

僅篩選與目標分佈對齊的優質有效標記進行訓練，提高訓練效率和模型性能

高效訓練

僅需5-10倍訓練時間即可達到基線性能，顯著減少計算資源消耗

數學專精

在GSM8k和MATH數據集上表現優異，少樣本準確率提升超過16%

模型能力

數學問題求解

少樣本學習

思維鏈推理

使用案例

教育

數學問題解答

幫助學生解決各類數學問題

在GSM8k數據集上達到36.2%的少樣本準確率

研究

數學推理研究

用於研究語言模型的數學推理能力

在MATH數據集上達到15.6%的少樣本準確率

🚀 Rho-1：並非所有令牌都是你所需要的

Rho-1是一種採用選擇性語言建模（SLM）進行預訓練的模型，通過聚焦於有用且乾淨的令牌，提升了在GSM8k和MATH等數據集上的少樣本準確率，並且能更快地達到基線性能。

🚀 快速開始

評估

git clone git@github.com:microsoft/rho.git
cd rho-1/math-evaluation-harness

基礎模型少樣本評估：

bash scripts/run_eval.sh cot microsoft/rho-math-7b-v0.1

SFT模型（代碼解釋器）評估：

bash scripts/run_eval.sh tora microsoft/rho-math-7b-interpreter-v0.1

我們復現的輸出結果存於rho-1/outputs.zip中。

✨ 主要特性

選擇性語言建模（SLM）

圖1：Rho-1採用選擇性語言建模（SLM）進行預訓練。SLM使GSM8k和MATH上的平均少樣本準確率提高了16%以上，能以5 - 10倍的速度達到基線性能。

圖2：上方：即使是經過大量過濾的預訓練語料庫也包含令牌級別的噪聲。左方：之前的因果語言建模（CLM）對所有令牌進行訓練。右方：我們提出的選擇性語言建模（SLM）有選擇地對那些有用且乾淨的令牌應用損失。

圖3：選擇性語言建模的流程。SLM通過在預訓練期間專注於有價值、乾淨的令牌來優化語言模型性能。它包括三個步驟：（步驟1）首先，在高質量數據上訓練一個參考模型。（步驟2）然後，使用參考模型對語料庫中每個令牌的損失進行評分。（步驟3）最後，有選擇地對那些與參考損失相比顯示出更高超額損失的令牌訓練語言模型。

評估結果

基礎模型（少樣本思維鏈）

模型	規模	數據	唯一令牌	訓練令牌	GSM8K	MATH	MMLU STEM	SAT
1 - 2B基礎模型
Qwen1.5	1.8B	-	-	-	36.1	6.8	31.3	40.6
Gemma	2.0B	-	-	-	18.8	11.4	34.4	50.0
DeepSeekMath	1.3B	-	120B	150B	23.8	13.6	33.1	56.3
Rho - Math - 1B - v0.1	1.1B	OWM	14B	30B	36.2	15.6	23.3	28.1
>= 7B基礎模型
Mistral	7B		-	-	41.2	11.6	49.5	59.4
Minerva	540B	-	39B	26B	58.8	33.6	63.9	-
LLemma	34B	PPile	55B	50B	54.2	23.0	54.7	68.8
InternLM2 - Math	20B	-	31B	125B	65.4	30.0	53.1	71.9
DeepSeekMath	7B	-	120B	500B	64.1	34.2	56.4	84.4
Rho - Math - 7B - v0.1	7B	OWM	14B	10.5B	66.9	31.0	54.6	84.4

工具集成推理（代碼解釋器）

模型	規模	SFT數據	GSM8k	MATH	SVAMP	ASDiv	MAWPS	TabMWP	GSM - Hard	平均
gpt4 - early (pal)	-	-	94.2	51.8	94.8	92.6	97.7	95.9	77.6	86.4
gpt - 4 - turbo - 2024 - 04 - 09 (cot)	-	-	-	73.4	-	-	-	-	-	-
開源小模型
MAmmoTH	70B	MI - 260k	76.9	41.8	82.4	-	-	-	-	-
ToRA	7B	ToRA - 69k	68.8	40.1	68.2	73.9	88.8	42.4	54.6	62.4
ToRA	70B	ToRA - 69k	84.3	49.7	82.7	86.8	93.8	74.0	67.2	76.9
DeepSeekMath	7B	ToRA - 69k	79.8	52.0	80.1	87.1	93.8	85.8	63.1	77.4
Rho - Math - 1B - Interpreter - v0.1	1B	ToRA - 69k	59.4	40.6	60.7	74.2	88.6	26.7	48.1	56.9
Rho - Math - 7B - Interpreter - v0.1	7B	ToRA - 69k	81.3	51.8	80.8	85.5	94.5	70.1	63.1	75.3

📄 許可證

本項目採用MIT許可證。

☕️ 引用

如果您覺得這個倉庫有用，請考慮引用我們的論文：

@misc{lin2024rho1,
      title={Rho-1: Not All Tokens Are What You Need}, 
      author={Zhenghao Lin and Zhibin Gou and Yeyun Gong and Xiao Liu and Yelong Shen and Ruochen Xu and Chen Lin and Yujiu Yang and Jian Jiao and Nan Duan and Weizhu Chen},
      year={2024},
      eprint={2404.07965},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}