azbert-baseオープンソース事前学習モデル - 無料でデプロイし、数学記号の認識と処理を支援

ホーム

Azbert Base

castoriniによって開発

数学記号の識別と処理に特化した事前学習済みのBERTモデルで、特殊な分かち書き方法を用いてLaTeXタグを処理します。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #数学記号識別 #LaTeX分かち書き #数学式の穴埋め

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルは数学記号を識別でき、[pya0]を用いて分かち書きを行い、LaTeXタグに有限な新しいトークンを追加します。数学式の理解と生成タスクに適しています。

モデル特徴

数学記号識別

数学記号に特化して最適化されており、LaTeX形式の数学式を効果的に識別および処理できます。

特殊な分かち書き方法

[pya0]を用いて分かち書きを行い、LaTeXタグに有限な新しいトークンを追加し、総語彙数はわずか31,061です。

効率的な学習

4台のTesla V100 GPUで学習を行い、総バッチサイズは64で、270万の文ペアデータを用いて7エポック学習します。

モデル能力

数学式の理解

数学式の生成

マスク穴埋め予測

使用事例

数学教育

数学式の補完

不完全な数学式を自動的に補完し、欠けている演算子や変数を埋めます。

数学式の欠けている部分を正確に予測できます。

数学証明の支援

数学証明の手順を生成したり、証明のアイデアを提供します。

合理的な証明手順を生成し、数学定理の理解を助けます。

学術研究

数学論文の執筆支援

研究者が数学論文の公式や式を迅速に生成または補完するのを支援します。

論文の執筆効率を向上させ、公式入力の誤りを減らします。

🚀 事前学習済み数学感知BERTモデル（azbert）

このプロジェクトでは、数学記号を感知できる事前学習済みBERTモデルを公開しています。このモデルは数学記号を特別に処理し、pya0 を使用してトークン化を行い、LaTeX記号に対して非常に限られた新しいトークンのみを追加しています（総語彙数はわずか31,061です）。

🚀 クイックスタート

モデルのダウンロードと試用

pip install pya0==0.3.2
wget https://vault.cs.uwaterloo.ca/s/gqstFZmWHCLGXe3/download -O ckpt.tar.gz
mkdir -p ckpt
tar xzf ckpt.tar.gz -C ckpt --strip-components=1
python test.py --test_file test.txt

テストファイルの形式

test.txt 内のテスト例を変更することでテストを行うことができます。

テストファイルはタブ区切りで、最初の列は右側の文に対して追加でマスクを行いたい位置です（これは数学記号内のトークンをマスクする際に非常に役立ちます）。0の場合、追加のマスク位置はありません。

出力例

Hugging Faceへのアップロード

このリポジトリは Github で管理されており、Hugging Face で鏡像が作成されています。

Hugging Faceにアップロードするには、upload2hgf.sh スクリプトを使用してください。このスクリプトを実行する前に、以下のことを確認してください。

モデルとトークナイザーのチェックポイントが ./ckpt フォルダに作成されていること。
モデルに必要なすべてのファイルが含まれていること：config.json と pytorch_model.bin。
トークナイザーに必要なすべてのファイルが含まれていること：added_tokens.json、special_tokens_map.json、tokenizer_config.json、vocab.txt および tokenizer.json。
tokenizer_config.json に tokenizer_file フィールドがないこと（時には ~/.cache にローカル保存されることがあります）。
git-lfs がインストールされていること。
hgf という名前のgitリモート参照が https://huggingface.co/castorini/azbert-base を指していること。

✨ 主な機能

数学感知：数学記号を特別に処理でき、pya0 を使用してトークン化を行います。
軽量語彙：LaTeX記号に対して非常に限られた新しいトークンのみを追加しており、総語彙数はわずか31,061です。

📦 インストール

pip install pya0==0.3.2
wget https://vault.cs.uwaterloo.ca/s/gqstFZmWHCLGXe3/download -O ckpt.tar.gz
mkdir -p ckpt
tar xzf ckpt.tar.gz -C ckpt --strip-components=1