azbert-base開源預訓練模型 - 免費部署助力數學符號識別處理

首頁

Azbert Base

由castorini開發

一個預訓練的BERT模型，專門用於識別和處理數學符號，使用特殊的分詞方法處理LaTeX標記。

大型語言模型

Transformers

英語開源協議:MIT #數學符號識別 #LaTeX分詞 #數學表達式填充

下載量 16

發布時間 : 3/2/2022

模型概述

該模型能夠識別數學符號，使用[pya0]進行分詞，為LaTeX標記添加有限的新詞元。適用於數學表達式理解和生成任務。

模型特點

數學符號識別

專門針對數學符號進行優化，能夠有效識別和處理LaTeX格式的數學表達式。

特殊分詞方法

使用[pya0]進行分詞，為LaTeX標記添加有限的新詞元，總詞彙量僅為31,061。

高效訓練

在4塊Tesla V100 GPU上訓練，總批次大小為64，使用270萬句對數據訓練7個週期。

模型能力

數學表達式理解

數學表達式生成

填充掩碼預測

使用案例

數學教育

數學表達式補全

自動補全不完整的數學表達式，如填充缺失的運算符或變量。

能夠準確預測數學表達式中的缺失部分。

數學證明輔助

輔助生成數學證明的步驟或提供證明思路。

能夠生成合理的證明步驟，幫助理解數學定理。

學術研究

數學論文輔助寫作

幫助研究人員快速生成或補全數學論文中的公式和表達式。

提高論文寫作效率，減少公式輸入錯誤。

🚀 預訓練數學感知BERT模型（azbert）

本項目分享了一個能夠感知數學標記的預訓練BERT模型。該模型對數學標記進行特殊處理，並使用 pya0 進行分詞，僅為LaTeX標記添加了非常有限的新標記（總詞彙量僅為31,061）。

🚀 快速開始

下載並試用模型

pip install pya0==0.3.2
wget https://vault.cs.uwaterloo.ca/s/gqstFZmWHCLGXe3/download -O ckpt.tar.gz
mkdir -p ckpt
tar xzf ckpt.tar.gz -C ckpt --strip-components=1
python test.py --test_file test.txt

測試文件格式

修改 test.txt 中的測試示例即可進行測試。

測試文件採用製表符分隔，第一列是你希望對右側句子進行掩碼的額外位置（這在對數學標記中的標記進行掩碼時非常有用）。若為零，則表示沒有額外的掩碼位置。

示例輸出

上傳到Hugging Face

本倉庫託管在 Github，僅在 Hugging Face 上進行鏡像。

若要上傳到Hugging Face，請使用 upload2hgf.sh 腳本。在運行此腳本之前，請務必檢查以下內容：

模型和分詞器的檢查點已在 ./ckpt 文件夾下創建。
模型包含所有必需的文件：config.json 和 pytorch_model.bin。
分詞器包含所有必需的文件：added_tokens.json、special_tokens_map.json、tokenizer_config.json、vocab.txt 和 tokenizer.json。
tokenizer_config.json 中沒有 tokenizer_file 字段（有時它會本地存儲在 ~/.cache 中）。
已安裝 git-lfs。
存在一個名為 hgf 的git遠程引用，指向 https://huggingface.co/castorini/azbert-base。

✨ 主要特性

數學感知：能夠特殊處理數學標記，使用 pya0 進行分詞。
輕量級詞彙：僅為LaTeX標記添加了非常有限的新標記，總詞彙量僅為31,061。

📦 安裝指南

pip install pya0==0.3.2
wget https://vault.cs.uwaterloo.ca/s/gqstFZmWHCLGXe3/download -O ckpt.tar.gz
mkdir -p ckpt
tar xzf ckpt.tar.gz -C ckpt --strip-components=1