🚀 InternLM-Math-Plus
InternLM-Math-Plusは、最先端のバイリンガルなオープンソースの数学推論大規模言語モデル(LLM)です。これは、問題の解決者、証明者、検証者、データ拡張者として機能します。
💪 Github 🤖 Demo
🚀 クイックスタート
このセクションでは、InternLM-Math-Plusの最新情報やパフォーマンス、引用情報などをご紹介します。
📢 ニュース
- [2024.05.24] 4種類のサイズ(1.8B、7B、20B、8x22B)で最新バージョンのInternLM2-Math-Plusをリリースしました。非形式的な数学推論性能(思考連鎖とコードインタープリタ)と形式的な数学推論性能(LEAN 4翻訳とLEAN 4定理証明)を大幅に向上させました。
- [2024.02.10] 技術レポートと引用参考文献を追加しました。
- [2024.01.31] 評価コード付きのMiniF2F結果を追加しました!
- [2024.01.29] ModelScopeからのチェックポイントを追加しました。多数決とコードインタープリタに関する結果を更新しました。技術レポートは近日公開予定です!
- [2024.01.26] OpenXLabからのチェックポイントを追加し、中国のユーザーがダウンロードしやすくなりました!
✨ 主な機能
InternLM-Math-Plusは、最先端のバイリンガル数学推論LLMで、以下の機能を備えています。
- 問題の解決者として、様々な数学問題を解くことができます。
- 証明者として、数学定理の証明を行うことができます。
- 検証者として、数学的な推論や証明の正しさを検証します。
- データ拡張者として、数学データの拡張を行います。
📊 パフォーマンス
形式的な数学推論
InternLM2-Math-Plusの形式的な数学推論ベンチマークMiniF2F-testでのパフォーマンスを評価しました。評価設定はLEAN 4を使用したLlemmaと同じです。
モデル |
MiniF2F-test |
ReProver |
26.5 |
LLMStep |
27.9 |
GPT-F |
36.6 |
HTPS |
41.0 |
Llemma-7B |
26.2 |
Llemma-34B |
25.8 |
InternLM2-Math-7B-Base |
30.3 |
InternLM2-Math-20B-Base |
29.5 |
InternLM2-Math-Plus-1.8B |
38.9 |
InternLM2-Math-Plus-7B |
43.4 |
InternLM2-Math-Plus-20B |
42.6 |
InternLM2-Math-Plus-Mixtral8x22B |
37.3 |
非形式的な数学推論
InternLM2-Math-Plusの非形式的な数学推論ベンチマークMATHとGSM8Kでのパフォーマンスを評価しました。InternLM2-Math-Plus-1.8Bは最小サイズ設定でMiniCPM-2Bを上回ります。InternLM2-Math-Plus-7Bは、最先端の数学推論オープンソースモデルであるDeepseek-Math-7B-RLを上回ります。InternLM2-Math-Plus-Mixtral8x22Bは、MATH(Python付き)で68.5、GSM8Kで91.8を達成します。
モデル |
MATH |
MATH-Python |
GSM8K |
MiniCPM-2B |
10.2 |
- |
53.8 |
InternLM2-Math-Plus-1.8B |
37.0 |
41.5 |
58.8 |
InternLM2-Math-7B |
34.6 |
50.9 |
78.1 |
Deepseek-Math-7B-RL |
51.7 |
58.8 |
88.2 |
InternLM2-Math-Plus-7B |
53.0 |
59.7 |
85.8 |
InternLM2-Math-20B |
37.7 |
54.3 |
82.6 |
InternLM2-Math-Plus-20B |
53.8 |
61.8 |
87.7 |
Mixtral8x22B-Instruct-v0.1 |
41.8 |
- |
78.6 |
Eurux-8x22B-NCA |
49.0 |
- |
- |
InternLM2-Math-Plus-Mixtral8x22B |
58.1 |
68.5 |
91.8 |
また、MathBench-Aでもモデルを評価しました。InternLM2-Math-Plus-Mixtral8x22BはClaude 3 Opusと同等のパフォーマンスを示します。
モデル |
算術 |
小学 |
中学 |
高校 |
大学 |
平均 |
GPT-4o-0513 |
77.7 |
87.7 |
76.3 |
59.0 |
54.0 |
70.9 |
Claude 3 Opus |
85.7 |
85.0 |
58.0 |
42.7 |
43.7 |
63.0 |
Qwen-Max-0428 |
72.3 |
86.3 |
65.0 |
45.0 |
27.3 |
59.2 |
Qwen-1.5-110B |
70.3 |
82.3 |
64.0 |
47.3 |
28.0 |
58.4 |
Deepseek-V2 |
82.7 |
89.3 |
59.0 |
39.3 |
29.3 |
59.9 |
Llama-3-70B-Instruct |
70.3 |
86.0 |
53.0 |
38.7 |
34.7 |
56.5 |
InternLM2-Math-Plus-Mixtral8x22B |
77.5 |
82.0 |
63.6 |
50.3 |
36.8 |
62.0 |
InternLM2-Math-20B |
58.7 |
70.0 |
43.7 |
24.7 |
12.7 |
42.0 |
InternLM2-Math-Plus-20B |
65.8 |
79.7 |
59.5 |
47.6 |
24.8 |
55.5 |
Llama3-8B-Instruct |
54.7 |
71.0 |
25.0 |
19.0 |
14.0 |
36.7 |
InternLM2-Math-7B |
53.7 |
67.0 |
41.3 |
18.3 |
8.0 |
37.7 |
Deepseek-Math-7B-RL |
68.0 |
83.3 |
44.3 |
33.0 |
23.0 |
50.3 |
InternLM2-Math-Plus-7B |
61.4 |
78.3 |
52.5 |
40.5 |
21.7 |
50.9 |
MiniCPM-2B |
49.3 |
51.7 |
18.0 |
8.7 |
3.7 |
26.3 |
InternLM2-Math-Plus-1.8B |
43.0 |
43.3 |
25.4 |
18.9 |
4.7 |
27.1 |
📚 引用と技術レポート
@misc{ying2024internlmmath,
title={InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning},
author={Huaiyuan Ying and Shuo Zhang and Linyang Li and Zhejian Zhou and Yunfan Shao and Zhaoye Fei and Yichuan Ma and Jiawei Hong and Kuikun Liu and Ziyi Wang and Yudong Wang and Zijian Wu and Shuaibin Li and Fengzhe Zhou and Hongwei Liu and Songyang Zhang and Wenwei Zhang and Hang Yan and Xipeng Qiu and Jiayu Wang and Kai Chen and Dahua Lin},
year={2024},
eprint={2402.06332},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルは、other
ライセンスの下で提供されています。