オープンソース数学大規模言語モデルWizardMath-7B-V1.1 - 複雑な数学問題を無料でデプロイして解決

ホーム

Wizardmath 7B V1.1

WizardLMTeamによって開発

WizardMath-7B-V1.1はMistral-7Bをベースに訓練された最先端の7B数学大規模言語モデルで、GSM8kとMATHデータセットで優れた性能を発揮します。

大規模言語モデル

Transformers

英語#数学的推論 #強化進化指令 #7Bリーディングモデル

ダウンロード数 175.35k

リリース時間 : 12/19/2023

モデル概要

WizardMathは強化進化指令（RLEIF）により大規模言語モデルの数学的推論能力を強化し、数学問題の解決に特化しています。

モデル特徴

強化進化指令

RLEIF手法によりモデルの数学的推論能力を向上させます。

高性能

GSM8kとMATHデータセットで現在の最先端性能を達成しています。

オープンソース

モデルとコードが公開されており、研究や応用に便利です。

モデル能力

数学問題解答

数学的推論

テキスト生成

使用事例

教育

数学問題解答

学生が複雑な数学問題を解くのを支援します。

GSM8kで83.2 pass@1を達成。

研究

数学的推論研究

大規模言語モデルの数学的推論能力を研究するために使用されます。

MATHで33.0 pass@1を達成。

🚀 WizardMath: 強化進化指示 (RLEIF) による大規模言語モデルの数学的推論能力の強化

WizardMathは、強化進化指示 (RLEIF) を通じて大規模言語モデルの数学的推論能力を強化するプロジェクトです。このモデルは、数学的な問題解決能力に優れ、様々な数学的タスクに対応できます。

🏠 ホームページ

🤗 HFリポジトリ •🐱 Githubリポジトリ • 🐦 Twitter

📃 [WizardLM] • 📃 [WizardCoder] • 📃 [WizardMath]

👋 Discordに参加しましょう

ニュース

[2023年12月19日] 🔥 Mistral-7Bから学習したWizardMath-7B-V1.1をリリースしました。これはSOTAの7Bサイズの数学用LLMで、GSM8kで83.2 pass@1、MATHで33.0 pass@1を達成しました。[デモ]を使って会話してみてください。

[2023年12月19日] 🔥 WizardMath-7B-V1.1は、GSM8K pass@1でChatGPT 3.5、Gemini Pro、Mixtral MOE、Claude Instantを上回っています。

[2023年12月19日] 🔥 WizardMath-7B-V1.1は、MATH pass@1でChatGPT 3.5、Gemini Proと同等で、Mixtral MOEを上回っています。

モデル	チェックポイント	論文	GSM8k	MATH	デモ
WizardMath-7B-V1.1	🤗 HFリンク	📃 [WizardMath]	83.2	33.0	[デモ]
WizardMath-70B-V1.0	🤗 HFリンク	📃 [WizardMath]	81.6	22.7
WizardMath-13B-V1.0	🤗 HFリンク	📃 [WizardMath]	63.9	14.0
WizardMath-7B-V1.0	🤗 HFリンク	📃 [WizardMath]	54.9	10.7

[2023年12月19日] WizardMath-7B-V1.1と他のオープンソース7Bサイズの数学用LLMの比較

モデル	GSM8k Pass@1	MATH Pass@1
MPT-7B	6.8	3.0
Llama 1-7B	11.0	2.9
Llama 2-7B	12.3	2.8
Yi-6b	32.6	5.8
Mistral-7B	37.8	9.1
Qwen-7b	47.8	9.3
RFT-7B	50.3	--
MAmmoTH-7B (COT)	50.5	10.4
WizardMath-7B-V1.0	54.9	10.7
Abel-7B-001	59.7	13
MetaMath-7B	66.5	19.8
Arithmo-Mistral-7B	74.7	25.3
MetaMath-Mistral-7B	77.7	28.2
Abel-7B-002	80.4	29.5
WizardMath-7B-V1.1	83.2	33.0

[2023年12月19日] WizardMath-7B-V1.1と大規模オープンソース (30B~70B) LLMsの比較

モデル	GSM8k Pass@1	MATH Pass@1
Llemma-34B	51.5	25.0
Minerva-62B	52.4	27.6
Llama 2-70B	56.8	13.5
DeepSeek 67B	63.4	--
Gork 33B	62.9	23.9
MAmmoTH-70B	72.4	21.1
Yi-34B	67.9	15.9
Mixtral 8x7B	74.4	28.4
MetaMath-70B	82.3	26.6
WizardMath-7B-V1.1	83.2	33.0

❗ データ汚染チェック:

モデルの学習前に、すべての学習データを注意深く、厳密にチェックし、複数の重複排除方法を使用して、GSM8kとMATHテストセットでのデータ漏洩を検証し、防止しました。

🔥 ❗モデルのシステムプロンプト使用に関する注意:

私たちと厳密に同じシステムプロンプトを使用してください。また、量子化バージョンの精度は保証しません。

デフォルトバージョン:

"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:"

CoTバージョン: （❗ 簡単な数学問題には、CoTプロンプトの使用はお勧めしません。）

"Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response: Let's think step by step."

WizardMath推論デモスクリプト

WizardMathの推論デモコードをこちらで提供しています。

引用

このリポジトリのデータ、方法、またはコードを使用する場合は、リポジトリを引用してください。

@article{luo2023wizardmath,
  title={WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct},
  author={Luo, Haipeng and Sun, Qingfeng and Xu, Can and Zhao, Pu and Lou, Jianguang and Tao, Chongyang and Geng, Xiubo and Lin, Qingwei and Chen, Shifeng and Zhang, Dongmei},
  journal={arXiv preprint arXiv:2308.09583},
  year={2023}
}