llemma_7b開源數學領域語言模型 - 免費助力數學問題高效解決

首頁

Llemma 7b

由EleutherAI開發

Llemma 34B 是一款專注於數學領域的語言模型，基於Code Llama 34B權重初始化，並在Proof-Pile-2數據集上訓練。

大型語言模型

Transformers

英語#數學推理 #思維鏈優化 #定理證明

下載量 3,668

發布時間 : 9/12/2023

模型概述

Llemma系列模型在思維鏈數學推理以及使用Python和形式化定理證明器等數學計算工具方面表現尤為突出。

模型特點

數學推理能力

在思維鏈數學任務中全面超越Llama-2和Code Llama，性能優於Minerva。

工具使用能力

支持使用Python和形式化定理證明器等數學計算工具。

多數投票策略提升性能

通過多數投票策略可進一步提升模型在數學任務中的表現。

模型能力

數學問題求解

定理證明

數學推理

工具使用（Python、定理證明器）

使用案例

教育

數學問題解答

解答各類數學問題，包括代數、幾何、微積分等。

在GSM8k數據集上達到51.5%的準確率。

數學競賽題目求解

解決數學競賽中的複雜題目。

在MATH數據集上達到25.0%的準確率。

研究

定理證明

輔助數學研究者進行定理證明。

詳見論文中的定理證明評估部分。

🚀 Llemma 數學語言模型

Llemma是一款專注於數學領域的語言模型，它在鏈式思維數學推理以及運用Python和形式定理證明器等計算工具解決數學問題方面表現出色。本模型有7B和34B參數兩種版本可供選擇。

Llemma

ArXiv | 模型 | 數據 | 代碼 | 博客 | 示例瀏覽器

作者：Zhangir Azerbayev、Hailey Schoelkopf、Keiran Paster、Marco Dos Santos、Stephen McAleer、Albert Q. Jiang、Jia Deng、Stella Biderman、Sean Welleck

🚀 快速開始

Llemma 7B 是一款用於數學的語言模型。它以 Code Llama 7B 的權重為初始值，並在 Proof-Pile-2 數據集上進行了2000億個標記的訓練。

該模型還有34B參數版本：Llemma 34B。

✨ 主要特性

模型信息

屬性	詳情
模型類型	數學語言模型
訓練數據	EleutherAI/proof-pile-2、open-web-math/open-web-math
許可證	llama2

評估表現

Llemma模型在鏈式思維數學推理以及使用Python和形式定理證明器等數學計算工具方面表現尤為出色。

鏈式思維數學推理

在鏈式思維數學任務中，Llemma模型的表現優於Llama-2、Code Llama，並且在模型規模相當時，優於Minerva。

模型	規模	GSM8k	OCW	MMLU-STEM	SAT	MATH
Llama 2	7B	11.8%	3.7%	29.9%	25%	3.2%
Code Llama	7B	10.5%	4.4%	25.1%	9.4%	4.5%
LLEMMA	7B	36.4%	7.7%	37.7%	53.1%	18.0%
Minerva	8B	16.2%	7.7%	35.6%	-	14.1%
------------	------	--------	-------	-----------	-------	-------
Code Llama	34B	29.6%	7.0%	40.5%	40.6%	12.2%
LLEMMA	34B	51.5%	11.8%	49.0%	71.9%	25.0%
------------	------	--------	-------	-----------	-------	-------
Minerva	62B	52.4%	12.0%	53.9%	-	27.6%
Minerva	540B	58.8%	17.6%	63.9%	-	33.6%

通過多數投票法可以進一步提升性能：

模型	規模	GSM8k maj@100	OCW maj@100	MMLU-STEM maj@16	SAT maj@16	MATH maj@256
LLEMMA	7B	54.0%	14.3%	49.9%	78.1%	33.5
Minerva	8B	28.4%	12.5%	43.4%	-	25.4%
---------	------	-------------	-----------	-----------------	-----------	------------
LLEMMA	34B	69.3%	18.4%	59.7%	81.3%	43.1%
---------	------	-------------	-----------	-----------------	-----------	------------
Minerva	62B	68.5%	23.5%	63.5%	-	43.4%
Minerva	540B	78.5%	30.8%	75.0%	-	50.3%

工具使用和定理證明

除了鏈式思維推理，Llemma在計算數學任務方面也具有強大的能力。有關工具使用和形式定理證明的評估，請參閱我們的論文。

引用信息

@misc{azerbayev2023llemma,
      title={Llemma: An Open Language Model For Mathematics}, 
      author={Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck},
      year={2023},
      eprint={2310.10631},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}