🚀 WizardMath: 強化進化指示 (RLEIF) による大規模言語モデルの数学的推論能力の強化
WizardMathは、強化進化指示 (RLEIF) を通じて大規模言語モデルの数学的推論能力を強化するプロジェクトです。このモデルは、数学的な問題解決能力に優れ、様々な数学的タスクに対応できます。
🏠 ホームページ
🤗 HFリポジトリ •🐱 Githubリポジトリ • 🐦 Twitter
📃 [WizardLM] • 📃 [WizardCoder] • 📃 [WizardMath]
👋 Discordに参加しましょう
ニュース
[2023年12月19日] 🔥 Mistral-7Bから学習したWizardMath-7B-V1.1をリリースしました。これはSOTAの7Bサイズの数学用LLMで、GSM8kで83.2 pass@1、MATHで33.0 pass@1を達成しました。[デモ]を使って会話してみてください。
[2023年12月19日] 🔥 WizardMath-7B-V1.1は、GSM8K pass@1でChatGPT 3.5、Gemini Pro、Mixtral MOE、Claude Instantを上回っています。
[2023年12月19日] 🔥 WizardMath-7B-V1.1は、MATH pass@1でChatGPT 3.5、Gemini Proと同等で、Mixtral MOEを上回っています。
[2023年12月19日] WizardMath-7B-V1.1と他のオープンソース7Bサイズの数学用LLMの比較
モデル |
GSM8k Pass@1 |
MATH Pass@1 |
MPT-7B |
6.8 |
3.0 |
Llama 1-7B |
11.0 |
2.9 |
Llama 2-7B |
12.3 |
2.8 |
Yi-6b |
32.6 |
5.8 |
Mistral-7B |
37.8 |
9.1 |
Qwen-7b |
47.8 |
9.3 |
RFT-7B |
50.3 |
-- |
MAmmoTH-7B (COT) |
50.5 |
10.4 |
WizardMath-7B-V1.0 |
54.9 |
10.7 |
Abel-7B-001 |
59.7 |
13 |
MetaMath-7B |
66.5 |
19.8 |
Arithmo-Mistral-7B |
74.7 |
25.3 |
MetaMath-Mistral-7B |
77.7 |
28.2 |
Abel-7B-002 |
80.4 |
29.5 |
WizardMath-7B-V1.1 |
83.2 |
33.0 |
[2023年12月19日] WizardMath-7B-V1.1と大規模オープンソース (30B~70B) LLMsの比較
モデル |
GSM8k Pass@1 |
MATH Pass@1 |
Llemma-34B |
51.5 |
25.0 |
Minerva-62B |
52.4 |
27.6 |
Llama 2-70B |
56.8 |
13.5 |
DeepSeek 67B |
63.4 |
-- |
Gork 33B |
62.9 |
23.9 |
MAmmoTH-70B |
72.4 |
21.1 |
Yi-34B |
67.9 |
15.9 |
Mixtral 8x7B |
74.4 |
28.4 |
MetaMath-70B |
82.3 |
26.6 |
WizardMath-7B-V1.1 |
83.2 |
33.0 |
❗ データ汚染チェック:
モデルの学習前に、すべての学習データを注意深く、厳密にチェックし、複数の重複排除方法を使用して、GSM8kとMATHテストセットでのデータ漏洩を検証し、防止しました。
🔥
❗モデルのシステムプロンプト使用に関する注意:
私たちと厳密に同じシステムプロンプトを使用してください。また、量子化バージョンの精度は保証しません。
デフォルトバージョン:
"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:"
CoTバージョン: (❗ 簡単な数学問題には、CoTプロンプトの使用はお勧めしません。)
"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response: Let's think step by step."
WizardMath推論デモスクリプト
WizardMathの推論デモコードをこちらで提供しています。
引用
このリポジトリのデータ、方法、またはコードを使用する場合は、リポジトリを引用してください。
@article{luo2023wizardmath,
title={WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct},
author={Luo, Haipeng and Sun, Qingfeng and Xu, Can and Zhao, Pu and Lou, Jianguang and Tao, Chongyang and Geng, Xiubo and Lin, Qingwei and Chen, Shifeng and Zhang, Dongmei},
journal={arXiv preprint arXiv:2308.09583},
year={2023}
}