llemma_7bオープンソース数学分野言語モデル - 数学問題の効率的な解決を無料で支援

ホーム

Llemma 7b

EleutherAIによって開発

Llemma 34Bは数学分野に特化した言語モデルで、Code Llama 34Bの重みを初期値としてProof-Pile-2データセットで訓練されました。

大規模言語モデル

Transformers

英語#数学推論 #思考連鎖最適化 #定理証明

ダウンロード数 3,668

リリース時間 : 9/12/2023

モデル概要

Llemmaシリーズのモデルは、思考連鎖による数学推論やPython、形式的定理証明器などの数学計算ツールの使用において特に優れた性能を発揮します。

モデル特徴

数学推論能力

思考連鎖数学タスクにおいてLlama-2やCode Llamaを全面的に上回り、Minervaよりも優れた性能を示します。

ツール使用能力

Pythonや形式的定理証明器などの数学計算ツールの使用をサポートします。

多数決戦略による性能向上

多数決戦略により、数学タスクにおけるモデルの性能をさらに向上させることができます。

モデル能力

数学問題解決

定理証明

数学推論

ツール使用（Python、定理証明器）

使用事例

教育

数学問題解答

代数、幾何、微積分など、さまざまな数学問題に解答します。

GSM8kデータセットで51.5%の精度を達成。

数学競技問題解決

数学競技の複雑な問題を解決します。

MATHデータセットで25.0%の精度を達成。

研究

定理証明

数学研究者が定理証明を行うのを支援します。

論文の定理証明評価セクションを参照してください。

🚀 Llemma 7B

Llemma 7B は数学用の言語モデルです。このモデルは、Code Llama 7B の重みで初期化され、Proof-Pile-2 を 200B トークンで学習させています。また、このモデルには 34B パラメータのバージョン Llemma 34B もあります。

Llemma

ArXiv | モデル | データ | コード | ブログ | サンプルエクスプローラー

Zhangir Azerbayev、Hailey Schoelkopf、Keiran Paster、Marco Dos Santos、Stephen McAleer、Albert Q. Jiang、Jia Deng、Stella Biderman、Sean Welleck

🚀 クイックスタート

Llemma は、数学的な思考連鎖推論や、Python や形式的定理証明器などの数学用の計算ツールの使用に特に強い言語モデルです。

✨ 主な機能

評価

思考連鎖による数学的推論

思考連鎖による数学的タスクにおいて、Llemma モデルは Llama-2、Code Llama を上回り、モデルサイズを統一した場合には Minerva を上回ります。

モデル	サイズ	GSM8k	OCW	MMLU-STEM	SAT	MATH
Llama 2	7B	11.8%	3.7%	29.9%	25%	3.2%
Code Llama	7B	10.5%	4.4%	25.1%	9.4%	4.5%
LLEMMA	7B	36.4%	7.7%	37.7%	53.1%	18.0%
Minerva	8B	16.2%	7.7%	35.6%	-	14.1%
------------	------	--------	-------	-----------	-------	-------
Code Llama	34B	29.6%	7.0%	40.5%	40.6%	12.2%
LLEMMA	34B	51.5%	11.8%	49.0%	71.9%	25.0%
------------	------	--------	-------	-----------	-------	-------
Minerva	62B	52.4%	12.0%	53.9%	-	27.6%
Minerva	540B	58.8%	17.6%	63.9%	-	33.6%

多数決を用いることで、さらなるパフォーマンスを引き出すことができます。

モデル	サイズ	GSM8k maj@100	OCW maj@100	MMLU-STEM maj@16	SAT maj@16	MATH maj@256
LLEMMA	7B	54.0%	14.3%	49.9%	78.1%	33.5
Minerva	8B	28.4%	12.5%	43.4%	-	25.4%
---------	------	-------------	-----------	-----------------	-----------	------------
LLEMMA	34B	69.3%	18.4%	59.7%	81.3%	43.1%
---------	------	-------------	-----------	-----------------	-----------	------------
Minerva	62B	68.5%	23.5%	63.5%	-	43.4%
Minerva	540B	78.5%	30.8%	75.0%	-	50.3%

ツールの使用と定理証明

思考連鎖推論に加えて、Llemma は計算数学的タスクにも強い能力を持っています。ツールの使用や形式的定理証明の評価については、当社の論文を参照してください。

引用

@misc{azerbayev2023llemma,
      title={Llemma: An Open Language Model For Mathematics}, 
      author={Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck},
      year={2023},
      eprint={2310.10631},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 ライセンス

このモデルは Llama2 のライセンスの下で提供されています。

📚 ドキュメント

データセット

EleutherAI/proof-pile-2
open-web-math/open-web-math

属性	詳情
モデルタイプ	数学用言語モデル
学習データ	EleutherAI/proof-pile-2、open-web-math/open-web-math