albert-for-arqmath-3開源模型 - 優化數學公式切分，精準匹配數學問答

首頁

Albert For Arqmath 3

由AnReu開發

基於ALBERT-base-v2架構，通過Math StackExchange數據三階段預訓練，優化數學公式切分效果，用於數學問答匹配任務

問答系統

Transformers

英語#數學問答匹配 #LaTeX符號優化 #三階段預訓練

下載量 365

發布時間 : 7/1/2022

模型概述

該模型通過分類任務微調，可判斷數學問題與答案的匹配程度，其分類輸出可用於答案排序。特別優化了LaTeX符號處理能力。

模型特點

數學公式優化

擴充分詞器的LaTeX符號表，顯著提升數學公式的切分和處理能力

三階段預訓練

在Math StackExchange數據上進行了完整的三階段預訓練過程

問答匹配

通過分類任務微調，可準確判斷問題與答案的相關性

模型能力

數學文本理解

LaTeX公式處理

問答相關性判斷

使用案例

教育技術

數學問答系統

在在線教育平臺中自動匹配學生問題與最佳解答

提升答案檢索準確率

學術論壇搜索

優化Math StackExchange等平臺的搜索排序

改善用戶獲取相關答案的效率

🚀 ARQMath 3的ALBERT模型

本倉庫包含我們針對ARQMath 3的最佳模型——math_10模型。該模型從ALBERT-base-v2初始化，並在Math StackExchange上分三個不同階段進行了進一步預訓練。我們還為分詞器添加了更多LaTeX標記，以實現對數學公式更好的分詞。math_10模型在一個分類任務上進行了微調，用於確定給定問題（序列1）是否與給定答案（序列2）匹配。分類輸出可用於對最佳答案進行排序。有關更多詳細信息，請閱讀我們的論文：點擊查看。

✨ 主要特性

基於ALBERT-base-v2初始化，在數學領域數據上進行預訓練。
為分詞器添加更多LaTeX標記，提升數學公式分詞效果。
經過微調可用於判斷問題與答案的匹配度，為答案排序。

📦 安裝指南

暫未提及具體安裝步驟，可參考使用示例中的代碼依賴。

💻 使用示例

基礎用法

# based on https://huggingface.co/docs/transformers/main/en/task_summary#sequence-classification
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("AnReu/albert-for-arqmath-3")

model = AutoModelForSequenceClassification.from_pretrained("AnReu/albert-for-arqmath-3")

classes = ["non relevant", "relevant"]

sequence_0 = "How can I calculate x in $3x = 5$"
sequence_1 = "Just divide by 3: $x = \\frac{5}{3}$"
sequence_2 = "The general rule for squaring a sum is $(a+b)^2=a^2+2ab+b^2$"

# The tokenizer will automatically add any model specific separators (i.e. <CLS> and <SEP>) and tokens to
# the sequence, as well as compute the attention masks.
irrelevant = tokenizer(sequence_0, sequence_2, return_tensors="pt")
relevant = tokenizer(sequence_0, sequence_1, return_tensors="pt")

irrelevant_classification_logits = model(**irrelevant).logits
relevant_classification_logits = model(**relevant).logits

irrelevant_results = torch.softmax(irrelevant_classification_logits, dim=1).tolist()[0]
relevant_results = torch.softmax(relevant_classification_logits, dim=1).tolist()[0]

# Should be irrelevant
for i in range(len(classes)):
    print(f"{classes[i]}: {int(round(irrelevant_results[i] * 100))}%")

# Should be relevant
for i in range(len(classes)):
    print(f"{classes[i]}: {int(round(relevant_results[i] * 100))}%")

📚 詳細文檔

ARQMath 3的其他模型

我們計劃發佈其他微調模型以及基礎模型。這些倉庫的鏈接將很快添加到此處。

模型	初始化來源	預訓練情況	微調情況	鏈接
roberta_10	RoBERTa	MathSE (1)	是，N=10 MathSE
base_10	ALBERT	MathSE (1)	是，N=10 MathSE
math_10_add	ALBERT	MathSE (1)-(3)	是，N=10 MathSE和帶註釋數據
Khan_SE_10	ALBERT	MathSE (1)	是，N=10 MathSE
roberta	RoBERTa	MathSE (1)	否	AnReu/math_pretrained_roberta
math albert	ALBERT	MathSE (1)-(3)	否	AnReu/math_albert
base	ALBERT	MathSE (1)	否
Khan_SE	ALBERT	MathSE (1)與Khan混合	否

更新

我們還以與ALBERT模型相同的方式對BERT-base-cased模型進行了進一步預訓練。你可以在此處找到該模型：AnReu/math_pretrained_bert。

📄 許可證

原文檔未提及許可證信息。

📖 引用

如果你發現此模型有用，請考慮引用我們的論文：

@article{reusch2022transformer,
  title={Transformer-Encoder and Decoder Models for Questions on Math},
  author={Reusch, Anja and Thiele, Maik and Lehner, Wolfgang},
  year={2022},
  organization={CLEF}
}