WizardMath-70B-V1.0開源大模型 - 專注數學推理，免費部署的實用之選

首頁

Wizardmath 70B V1.0

由WizardLMTeam開發

WizardMath-7B-V1.1是基於Mistral-7B訓練的大語言模型，專注於數學推理能力，採用強化進化指令(RLEIF)方法提升性能，是當前7B規模數學大模型的SOTA。

大型語言模型

Transformers

#數學推理 #強化進化指令 #大語言模型

下載量 153

發布時間 : 8/11/2023

模型概述

WizardMath通過強化進化指令賦能大語言模型的數學推理能力，在GSM8k和MATH等數學基準測試上表現優異。

模型特點

強化進化指令(RLEIF)

採用創新的強化進化指令方法提升數學推理能力

7B規模SOTA

在7B參數規模模型中達到最佳數學推理性能

超越ChatGPT 3.5

在GSM8K pass@1上超越ChatGPT 3.5、Gemini Pro等商業模型

模型能力

數學問題求解

多步數學推理

代數運算

幾何問題解答

使用案例

教育

數學輔導

幫助學生解決數學問題和理解數學概念

在GSM8k測試集上達到83.2%準確率

研究

數學推理研究

用於研究大語言模型的數學推理能力

在MATH測試集上達到33.0%準確率

🚀 WizardMath：通過強化進化指令（RLEIF）增強大語言模型的數學推理能力

WizardMath是一個藉助強化進化指令（RLEIF）來提升大語言模型數學推理能力的項目。它在數學問題解決上表現出色，能為用戶提供高效準確的數學推理結果。

🚀 快速開始

你可以通過以下鏈接快速瞭解和使用WizardMath：

✨ 主要特性

模型對比

與其他開源7B規模數學大語言模型對比

模型	GSM8k Pass@1	MATH Pass@1
MPT - 7B	6.8	3.0
Llama 1 - 7B	11.0	2.9
Llama 2 - 7B	12.3	2.8
Yi - 6b	32.6	5.8
Mistral - 7B	37.8	9.1
Qwen - 7b	47.8	9.3
RFT - 7B	50.3	--
MAmmoTH - 7B (COT)	50.5	10.4
WizardMath - 7B - V1.0	54.9	10.7
Abel - 7B - 001	59.7	13
MetaMath - 7B	66.5	19.8
Arithmo - Mistral - 7B	74.7	25.3
MetaMath - Mistral - 7B	77.7	28.2
Abel - 7B - 002	80.4	29.5
WizardMath - 7B - V1.1	83.2	33.0

與大型開源（30B ~ 70B）大語言模型對比

模型	GSM8k Pass@1	MATH Pass@1
Llemma - 34B	51.5	25.0
Minerva - 62B	52.4	27.6
Llama 2 - 70B	56.8	13.5
DeepSeek 67B	63.4	--
Gork 33B	62.9	23.9
MAmmoTH - 70B	72.4	21.1
Yi - 34B	67.9	15.9
Mixtral 8x7B	74.4	28.4
MetaMath - 70B	82.3	26.6
WizardMath - 7B - V1.1	83.2	33.0

與其他大語言模型對比（WizardMath - V1.0）

🔥 下圖顯示，我們的 WizardMath - 70B - V1.0 在該基準測試中排名第五，超越了ChatGPT（81.6 vs. 80.8）、Claude Instant（81.6 vs. 80.9）、PaLM 2 540B（81.6 vs. 80.7）。

數據汙染檢查

在模型訓練前，我們仔細嚴格地檢查了所有訓練數據，並使用多種去重方法來驗證和防止GSM8k和MATH測試集的數據洩露。

模型	檢查點	論文	MT - Bench	AlpacaEval	GSM8k	HumanEval	許可證
WizardLM - 70B - V1.0	🤗 HF鏈接	📃 即將發佈	7.78	92.91%	77.6%	50.6 pass@1	Llama 2許可證
WizardLM - 13B - V1.2	🤗 HF鏈接		7.06	89.17%	55.3%	36.6 pass@1	Llama 2許可證
WizardLM - 13B - V1.1	🤗 HF鏈接		6.76	86.32%		25.0 pass@1	非商業用途
WizardLM - 30B - V1.0	🤗 HF鏈接		7.01			37.8 pass@1	非商業用途
WizardLM - 13B - V1.0	🤗 HF鏈接		6.35	75.31%		24.0 pass@1	非商業用途
WizardLM - 7B - V1.0	🤗 HF鏈接	📃 WizardLM				19.1 pass@1	非商業用途

模型	檢查點	論文	HumanEval	MBPP	演示	許可證
WizardCoder - Python - 34B - V1.0	🤗 HF鏈接	📃 WizardCoder	73.2	61.2	演示	Llama2
WizardCoder - 15B - V1.0	🤗 HF鏈接	📃 WizardCoder	59.8	50.6	--	OpenRAIL - M
WizardCoder - Python - 13B - V1.0	🤗 HF鏈接	📃 WizardCoder	64.0	55.6	--	Llama2
WizardCoder - Python - 7B - V1.0	🤗 HF鏈接	📃 WizardCoder	55.5	51.6	演示	Llama2
WizardCoder - 3B - V1.0	🤗 HF鏈接	📃 WizardCoder	34.8	37.4	--	OpenRAIL - M
WizardCoder - 1B - V1.0	🤗 HF鏈接	📃 WizardCoder	23.8	28.6	--	OpenRAIL - M

📚 詳細文檔

模型系統提示使用說明

❗模型系統提示使用說明： 請嚴格使用與我們相同的系統提示，我們不保證 量化版本 的準確性。

默認版本：

"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:"

思維鏈（CoT）版本：（❗ 對於簡單數學問題，我們不建議使用CoT提示。）

"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response: Let's think step by step."

推理演示腳本

我們在這裡提供了WizardMath推理演示代碼。

數據集相關說明

❗關於數據集的常見問題： 最近，我們整個組織的代碼、數據和模型的開源政策和規定有了明顯變化。儘管如此，我們仍努力先開放了模型權重，但數據涉及更嚴格的審核，正在與我們的法律團隊審核中。我們的研究人員無權擅自公開發布。感謝您的理解。

📄 許可證

本項目使用Llama2許可證。

📚 引用

如果您使用了本倉庫中的數據、方法或代碼，請引用本倉庫：

@article{luo2023wizardmath,
  title={WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct},
  author={Luo, Haipeng and Sun, Qingfeng and Xu, Can and Zhao, Pu and Lou, Jianguang and Tao, Chongyang and Geng, Xiubo and Lin, Qingwei and Chen, Shifeng and Zhang, Dongmei},
  journal={arXiv preprint arXiv:2308.09583},
  year={2023}
}