🚀 InternLM-Math-Plus
InternLM-Math-Plus 是一款最先进的双语开源数学推理大语言模型,具备求解、证明、验证和增强等多种能力,能有效解决数学推理相关问题。
🚀 快速开始
你可以通过以下链接快速了解和体验 InternLM-Math-Plus:
✨ 主要特性
- 多尺寸版本:发布了 1.8B、7B、20B 和 8x22B 四种尺寸的 InternLM2-Math-Plus 版本。
- 性能提升:显著提高了非正式数学推理(思维链和代码解释器)和正式数学推理(LEAN 4 翻译和 LEAN 4 定理证明)的性能。
- 双语支持:支持英文和中文两种语言。
📚 详细文档
最新动态
- [2024.05.24] 发布更新版本的 InternLM2-Math-Plus,包含 1.8B、7B、20B 和 8x22B 四种尺寸,在非正式数学推理和正式数学推理方面性能显著提升。
- [2024.02.10] 添加技术报告和引用参考。
- [2024.01.31] 添加 MiniF2F 结果及评估代码。
- [2024.01.29] 添加来自 ModelScope 的检查点,更新多数投票和代码解释器的结果,技术报告即将发布。
- [2024.01.26] 添加来自 OpenXLab 的检查点,方便中国用户下载。
性能表现
正式数学推理
在正式数学推理基准测试 MiniF2F - test 上评估了 InternLM2-Math-Plus 的性能,评估设置与使用 LEAN 4 的 Llemma 相同。
模型 |
MiniF2F - test |
ReProver |
26.5 |
LLMStep |
27.9 |
GPT - F |
36.6 |
HTPS |
41.0 |
Llemma - 7B |
26.2 |
Llemma - 34B |
25.8 |
InternLM2 - Math - 7B - Base |
30.3 |
InternLM2 - Math - 20B - Base |
29.5 |
InternLM2 - Math - Plus - 1.8B |
38.9 |
InternLM2 - Math - Plus - 7B |
43.4 |
InternLM2 - Math - Plus - 20B |
42.6 |
InternLM2 - Math - Plus - Mixtral8x22B |
37.3 |
非正式数学推理
在非正式数学推理基准测试 MATH 和 GSM8K 上评估了 InternLM2-Math-Plus 的性能。
模型 |
MATH |
MATH - Python |
GSM8K |
MiniCPM - 2B |
10.2 |
- |
53.8 |
InternLM2 - Math - Plus - 1.8B |
37.0 |
41.5 |
58.8 |
InternLM2 - Math - 7B |
34.6 |
50.9 |
78.1 |
Deepseek - Math - 7B - RL |
51.7 |
58.8 |
88.2 |
InternLM2 - Math - Plus - 7B |
53.0 |
59.7 |
85.8 |
InternLM2 - Math - 20B |
37.7 |
54.3 |
82.6 |
InternLM2 - Math - Plus - 20B |
53.8 |
61.8 |
87.7 |
Mixtral8x22B - Instruct - v0.1 |
41.8 |
- |
78.6 |
Eurux - 8x22B - NCA |
49.0 |
- |
- |
InternLM2 - Math - Plus - Mixtral8x22B |
58.1 |
68.5 |
91.8 |
还在 [MathBench - A](https://github.com/open - compass/MathBench) 上对模型进行了评估。
模型 |
算术 |
小学 |
初中 |
高中 |
大学 |
平均 |
GPT - 4o - 0513 |
77.7 |
87.7 |
76.3 |
59.0 |
54.0 |
70.9 |
Claude 3 Opus |
85.7 |
85.0 |
58.0 |
42.7 |
43.7 |
63.0 |
Qwen - Max - 0428 |
72.3 |
86.3 |
65.0 |
45.0 |
27.3 |
59.2 |
Qwen - 1.5 - 110B |
70.3 |
82.3 |
64.0 |
47.3 |
28.0 |
58.4 |
Deepseek - V2 |
82.7 |
89.3 |
59.0 |
39.3 |
29.3 |
59.9 |
Llama - 3 - 70B - Instruct |
70.3 |
86.0 |
53.0 |
38.7 |
34.7 |
56.5 |
InternLM2 - Math - Plus - Mixtral8x22B |
77.5 |
82.0 |
63.6 |
50.3 |
36.8 |
62.0 |
InternLM2 - Math - 20B |
58.7 |
70.0 |
43.7 |
24.7 |
12.7 |
42.0 |
InternLM2 - Math - Plus - 20B |
65.8 |
79.7 |
59.5 |
47.6 |
24.8 |
55.5 |
Llama3 - 8B - Instruct |
54.7 |
71.0 |
25.0 |
19.0 |
14.0 |
36.7 |
InternLM2 - Math - 7B |
53.7 |
67.0 |
41.3 |
18.3 |
8.0 |
37.7 |
Deepseek - Math - 7B - RL |
68.0 |
83.3 |
44.3 |
33.0 |
23.0 |
50.3 |
InternLM2 - Math - Plus - 7B |
61.4 |
78.3 |
52.5 |
40.5 |
21.7 |
50.9 |
MiniCPM - 2B |
49.3 |
51.7 |
18.0 |
8.7 |
3.7 |
26.3 |
InternLM2 - Math - Plus - 1.8B |
43.0 |
43.3 |
25.4 |
18.9 |
4.7 |
27.1 |
引用和技术报告
@misc{ying2024internlmmath,
title={InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning},
author={Huaiyuan Ying and Shuo Zhang and Linyang Li and Zhejian Zhou and Yunfan Shao and Zhaoye Fei and Yichuan Ma and Jiawei Hong and Kuikun Liu and Ziyi Wang and Yudong Wang and Zijian Wu and Shuaibin Li and Fengzhe Zhou and Hongwei Liu and Songyang Zhang and Wenwei Zhang and Hang Yan and Xipeng Qiu and Jiayu Wang and Kai Chen and Dahua Lin},
year={2024},
eprint={2402.06332},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本项目使用其他许可证。