albert-for-arqmath-3开源模型 - 优化数学公式切分，精准匹配数学问答

首页

Albert For Arqmath 3

由 AnReu 开发

基于ALBERT-base-v2架构，通过Math StackExchange数据三阶段预训练，优化数学公式切分效果，用于数学问答匹配任务

问答系统

Transformers

英语#数学问答匹配 #LaTeX符号优化 #三阶段预训练

下载量 365

发布时间 : 7/1/2022

模型简介

该模型通过分类任务微调，可判断数学问题与答案的匹配程度，其分类输出可用于答案排序。特别优化了LaTeX符号处理能力。

模型特点

数学公式优化

扩充分词器的LaTeX符号表，显著提升数学公式的切分和处理能力

三阶段预训练

在Math StackExchange数据上进行了完整的三阶段预训练过程

问答匹配

通过分类任务微调，可准确判断问题与答案的相关性

模型能力

数学文本理解

LaTeX公式处理

问答相关性判断

使用案例

教育技术

数学问答系统

在在线教育平台中自动匹配学生问题与最佳解答

提升答案检索准确率

学术论坛搜索

优化Math StackExchange等平台的搜索排序

改善用户获取相关答案的效率

🚀 ARQMath 3的ALBERT模型

本仓库包含我们针对ARQMath 3的最佳模型——math_10模型。该模型从ALBERT-base-v2初始化，并在Math StackExchange上分三个不同阶段进行了进一步预训练。我们还为分词器添加了更多LaTeX标记，以实现对数学公式更好的分词。math_10模型在一个分类任务上进行了微调，用于确定给定问题（序列1）是否与给定答案（序列2）匹配。分类输出可用于对最佳答案进行排序。有关更多详细信息，请阅读我们的论文：点击查看。

✨ 主要特性

基于ALBERT-base-v2初始化，在数学领域数据上进行预训练。
为分词器添加更多LaTeX标记，提升数学公式分词效果。
经过微调可用于判断问题与答案的匹配度，为答案排序。

📦 安装指南

暂未提及具体安装步骤，可参考使用示例中的代码依赖。

💻 使用示例

基础用法

# based on https://huggingface.co/docs/transformers/main/en/task_summary#sequence-classification
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("AnReu/albert-for-arqmath-3")

model = AutoModelForSequenceClassification.from_pretrained("AnReu/albert-for-arqmath-3")

classes = ["non relevant", "relevant"]

sequence_0 = "How can I calculate x in $3x = 5$"
sequence_1 = "Just divide by 3: $x = \\frac{5}{3}$"
sequence_2 = "The general rule for squaring a sum is $(a+b)^2=a^2+2ab+b^2$"

# The tokenizer will automatically add any model specific separators (i.e. <CLS> and <SEP>) and tokens to
# the sequence, as well as compute the attention masks.
irrelevant = tokenizer(sequence_0, sequence_2, return_tensors="pt")
relevant = tokenizer(sequence_0, sequence_1, return_tensors="pt")

irrelevant_classification_logits = model(**irrelevant).logits
relevant_classification_logits = model(**relevant).logits

irrelevant_results = torch.softmax(irrelevant_classification_logits, dim=1).tolist()[0]
relevant_results = torch.softmax(relevant_classification_logits, dim=1).tolist()[0]

# Should be irrelevant
for i in range(len(classes)):
    print(f"{classes[i]}: {int(round(irrelevant_results[i] * 100))}%")

# Should be relevant
for i in range(len(classes)):
    print(f"{classes[i]}: {int(round(relevant_results[i] * 100))}%")

📚 详细文档

ARQMath 3的其他模型

我们计划发布其他微调模型以及基础模型。这些仓库的链接将很快添加到此处。

模型	初始化来源	预训练情况	微调情况	链接
roberta_10	RoBERTa	MathSE (1)	是，N=10 MathSE
base_10	ALBERT	MathSE (1)	是，N=10 MathSE
math_10_add	ALBERT	MathSE (1)-(3)	是，N=10 MathSE和带注释数据
Khan_SE_10	ALBERT	MathSE (1)	是，N=10 MathSE
roberta	RoBERTa	MathSE (1)	否	AnReu/math_pretrained_roberta
math albert	ALBERT	MathSE (1)-(3)	否	AnReu/math_albert
base	ALBERT	MathSE (1)	否
Khan_SE	ALBERT	MathSE (1)与Khan混合	否

更新

我们还以与ALBERT模型相同的方式对BERT-base-cased模型进行了进一步预训练。你可以在此处找到该模型：AnReu/math_pretrained_bert。

📄 许可证

原文档未提及许可证信息。

📖 引用

如果你发现此模型有用，请考虑引用我们的论文：

@article{reusch2022transformer,
  title={Transformer-Encoder and Decoder Models for Questions on Math},
  author={Reusch, Anja and Thiele, Maik and Lehner, Wolfgang},
  year={2022},
  organization={CLEF}
}