InternLM2-Math-Plus-7B开源双语数学推理模型

首页

Internlm2 Math Plus 7b

由 internlm 开发

InternLM-Math-Plus 是最先进的双语开源数学推理大语言模型，具备求解、证明、验证和增强能力。

大型语言模型

Transformers

支持多种语言开源协议:其他 #数学推理 #双语支持 #定理证明

下载量 164

发布时间 : 5/24/2024

模型简介

InternLM-Math-Plus 是一个专注于数学推理的大语言模型，支持英文和中文，能够进行数学问题的求解、证明、验证和增强。

模型特点

双语支持

支持英文和中文的数学推理任务。

多规模模型

提供1.8B、7B、20B和8x22B四种规模的模型，适应不同需求。

数学推理能力

在非正式数学推理（思维链和代码解释器）和正式数学推理（LEAN 4翻译和LEAN 4定理证明）方面表现优异。

模型能力

数学问题求解

数学定理证明

数学问题验证

数学推理增强

使用案例

教育

数学问题解答

帮助学生解答数学问题，提供详细的推理过程。

在GSM8K数据集上达到91.8的准确率。

研究

数学定理证明

辅助研究人员进行数学定理的证明。

在MiniF2F-test数据集上达到43.4的准确率。

🚀 InternLM-Math-Plus

InternLM-Math-Plus 是一款最先进的双语开源数学推理大语言模型，具备求解、证明、验证和增强等多种能力，能有效解决数学推理相关问题。

🚀 快速开始

你可以通过以下链接快速了解和体验 InternLM-Math-Plus：

✨ 主要特性

多尺寸版本：发布了 1.8B、7B、20B 和 8x22B 四种尺寸的 InternLM2-Math-Plus 版本。
性能提升：显著提高了非正式数学推理（思维链和代码解释器）和正式数学推理（LEAN 4 翻译和 LEAN 4 定理证明）的性能。
双语支持：支持英文和中文两种语言。

📚 详细文档

性能表现

正式数学推理

在正式数学推理基准测试 MiniF2F - test 上评估了 InternLM2-Math-Plus 的性能，评估设置与使用 LEAN 4 的 Llemma 相同。

模型	MiniF2F - test
ReProver	26.5
LLMStep	27.9
GPT - F	36.6
HTPS	41.0
Llemma - 7B	26.2
Llemma - 34B	25.8
InternLM2 - Math - 7B - Base	30.3
InternLM2 - Math - 20B - Base	29.5
InternLM2 - Math - Plus - 1.8B	38.9
InternLM2 - Math - Plus - 7B	43.4
InternLM2 - Math - Plus - 20B	42.6
InternLM2 - Math - Plus - Mixtral8x22B	37.3

非正式数学推理

在非正式数学推理基准测试 MATH 和 GSM8K 上评估了 InternLM2-Math-Plus 的性能。

模型	MATH	MATH - Python	GSM8K
MiniCPM - 2B	10.2	-	53.8
InternLM2 - Math - Plus - 1.8B	37.0	41.5	58.8
InternLM2 - Math - 7B	34.6	50.9	78.1
Deepseek - Math - 7B - RL	51.7	58.8	88.2
InternLM2 - Math - Plus - 7B	53.0	59.7	85.8
InternLM2 - Math - 20B	37.7	54.3	82.6
InternLM2 - Math - Plus - 20B	53.8	61.8	87.7
Mixtral8x22B - Instruct - v0.1	41.8	-	78.6
Eurux - 8x22B - NCA	49.0	-	-
InternLM2 - Math - Plus - Mixtral8x22B	58.1	68.5	91.8

还在 [MathBench - A](https://github.com/open - compass/MathBench) 上对模型进行了评估。

模型	算术	小学	初中	高中	大学	平均
GPT - 4o - 0513	77.7	87.7	76.3	59.0	54.0	70.9
Claude 3 Opus	85.7	85.0	58.0	42.7	43.7	63.0
Qwen - Max - 0428	72.3	86.3	65.0	45.0	27.3	59.2
Qwen - 1.5 - 110B	70.3	82.3	64.0	47.3	28.0	58.4
Deepseek - V2	82.7	89.3	59.0	39.3	29.3	59.9
Llama - 3 - 70B - Instruct	70.3	86.0	53.0	38.7	34.7	56.5
InternLM2 - Math - Plus - Mixtral8x22B	77.5	82.0	63.6	50.3	36.8	62.0
InternLM2 - Math - 20B	58.7	70.0	43.7	24.7	12.7	42.0
InternLM2 - Math - Plus - 20B	65.8	79.7	59.5	47.6	24.8	55.5
Llama3 - 8B - Instruct	54.7	71.0	25.0	19.0	14.0	36.7
InternLM2 - Math - 7B	53.7	67.0	41.3	18.3	8.0	37.7
Deepseek - Math - 7B - RL	68.0	83.3	44.3	33.0	23.0	50.3
InternLM2 - Math - Plus - 7B	61.4	78.3	52.5	40.5	21.7	50.9
MiniCPM - 2B	49.3	51.7	18.0	8.7	3.7	26.3
InternLM2 - Math - Plus - 1.8B	43.0	43.3	25.4	18.9	4.7	27.1

引用和技术报告

@misc{ying2024internlmmath,
      title={InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning}, 
      author={Huaiyuan Ying and Shuo Zhang and Linyang Li and Zhejian Zhou and Yunfan Shao and Zhaoye Fei and Yichuan Ma and Jiawei Hong and Kuikun Liu and Ziyi Wang and Yudong Wang and Zijian Wu and Shuaibin Li and Fengzhe Zhou and Hongwei Liu and Songyang Zhang and Wenwei Zhang and Hang Yan and Xipeng Qiu and Jiayu Wang and Kai Chen and Dahua Lin},
      year={2024},
      eprint={2402.06332},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}