InternLM2-Math-Plus-7B開源雙語數學推理模型

首頁

Internlm2 Math Plus 7b

由internlm開發

InternLM-Math-Plus 是最先進的雙語開源數學推理大語言模型，具備求解、證明、驗證和增強能力。

大型語言模型

Transformers

支持多種語言開源協議:其他 #數學推理 #雙語支持 #定理證明

下載量 164

發布時間 : 5/24/2024

模型概述

InternLM-Math-Plus 是一個專注於數學推理的大語言模型，支持英文和中文，能夠進行數學問題的求解、證明、驗證和增強。

模型特點

雙語支持

支持英文和中文的數學推理任務。

多規模模型

提供1.8B、7B、20B和8x22B四種規模的模型，適應不同需求。

數學推理能力

在非正式數學推理（思維鏈和代碼解釋器）和正式數學推理（LEAN 4翻譯和LEAN 4定理證明）方面表現優異。

模型能力

數學問題求解

數學定理證明

數學問題驗證

數學推理增強

使用案例

教育

數學問題解答

幫助學生解答數學問題，提供詳細的推理過程。

在GSM8K數據集上達到91.8的準確率。

研究

數學定理證明

輔助研究人員進行數學定理的證明。

在MiniF2F-test數據集上達到43.4的準確率。

🚀 InternLM-Math-Plus

InternLM-Math-Plus 是一款最先進的雙語開源數學推理大語言模型，具備求解、證明、驗證和增強等多種能力，能有效解決數學推理相關問題。

🚀 快速開始

你可以通過以下鏈接快速瞭解和體驗 InternLM-Math-Plus：

✨ 主要特性

多尺寸版本：發佈了 1.8B、7B、20B 和 8x22B 四種尺寸的 InternLM2-Math-Plus 版本。
性能提升：顯著提高了非正式數學推理（思維鏈和代碼解釋器）和正式數學推理（LEAN 4 翻譯和 LEAN 4 定理證明）的性能。
雙語支持：支持英文和中文兩種語言。

📚 詳細文檔

性能表現

正式數學推理

在正式數學推理基準測試 MiniF2F - test 上評估了 InternLM2-Math-Plus 的性能，評估設置與使用 LEAN 4 的 Llemma 相同。

模型	MiniF2F - test
ReProver	26.5
LLMStep	27.9
GPT - F	36.6
HTPS	41.0
Llemma - 7B	26.2
Llemma - 34B	25.8
InternLM2 - Math - 7B - Base	30.3
InternLM2 - Math - 20B - Base	29.5
InternLM2 - Math - Plus - 1.8B	38.9
InternLM2 - Math - Plus - 7B	43.4
InternLM2 - Math - Plus - 20B	42.6
InternLM2 - Math - Plus - Mixtral8x22B	37.3

非正式數學推理

在非正式數學推理基準測試 MATH 和 GSM8K 上評估了 InternLM2-Math-Plus 的性能。

模型	MATH	MATH - Python	GSM8K
MiniCPM - 2B	10.2	-	53.8
InternLM2 - Math - Plus - 1.8B	37.0	41.5	58.8
InternLM2 - Math - 7B	34.6	50.9	78.1
Deepseek - Math - 7B - RL	51.7	58.8	88.2
InternLM2 - Math - Plus - 7B	53.0	59.7	85.8
InternLM2 - Math - 20B	37.7	54.3	82.6
InternLM2 - Math - Plus - 20B	53.8	61.8	87.7
Mixtral8x22B - Instruct - v0.1	41.8	-	78.6
Eurux - 8x22B - NCA	49.0	-	-
InternLM2 - Math - Plus - Mixtral8x22B	58.1	68.5	91.8

還在 [MathBench - A](https://github.com/open - compass/MathBench) 上對模型進行了評估。

模型	算術	小學	初中	高中	大學	平均
GPT - 4o - 0513	77.7	87.7	76.3	59.0	54.0	70.9
Claude 3 Opus	85.7	85.0	58.0	42.7	43.7	63.0
Qwen - Max - 0428	72.3	86.3	65.0	45.0	27.3	59.2
Qwen - 1.5 - 110B	70.3	82.3	64.0	47.3	28.0	58.4
Deepseek - V2	82.7	89.3	59.0	39.3	29.3	59.9
Llama - 3 - 70B - Instruct	70.3	86.0	53.0	38.7	34.7	56.5
InternLM2 - Math - Plus - Mixtral8x22B	77.5	82.0	63.6	50.3	36.8	62.0
InternLM2 - Math - 20B	58.7	70.0	43.7	24.7	12.7	42.0
InternLM2 - Math - Plus - 20B	65.8	79.7	59.5	47.6	24.8	55.5
Llama3 - 8B - Instruct	54.7	71.0	25.0	19.0	14.0	36.7
InternLM2 - Math - 7B	53.7	67.0	41.3	18.3	8.0	37.7
Deepseek - Math - 7B - RL	68.0	83.3	44.3	33.0	23.0	50.3
InternLM2 - Math - Plus - 7B	61.4	78.3	52.5	40.5	21.7	50.9
MiniCPM - 2B	49.3	51.7	18.0	8.7	3.7	26.3
InternLM2 - Math - Plus - 1.8B	43.0	43.3	25.4	18.9	4.7	27.1

引用和技術報告

@misc{ying2024internlmmath,
      title={InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning}, 
      author={Huaiyuan Ying and Shuo Zhang and Linyang Li and Zhejian Zhou and Yunfan Shao and Zhaoye Fei and Yichuan Ma and Jiawei Hong and Kuikun Liu and Ziyi Wang and Yudong Wang and Zijian Wu and Shuaibin Li and Fengzhe Zhou and Hongwei Liu and Songyang Zhang and Wenwei Zhang and Hang Yan and Xipeng Qiu and Jiayu Wang and Kai Chen and Dahua Lin},
      year={2024},
      eprint={2402.06332},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}