🚀 AraELECTRA
ELECTRAは、自己教師付き言語表現学習の手法です。比較的少ない計算資源でトランスフォーマーネットワークを事前学習するために使用できます。ELECTRAモデルは、別のニューラルネットワークによって生成された「偽」の入力トークンと「真」の入力トークンを区別するように学習され、GANの識別器に似ています。AraELECTRAは、アラビア語のQAデータセットで最先端の結果を達成しています。
詳細な説明については、AraELECTRAの論文 AraELECTRA: Pre-Training Text Discriminators for Arabic Language Understanding を参照してください。
🚀 クイックスタート
💻 使用例
基本的な使用法
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="aubmindlab/araelectra-base-generator",
tokenizer="aubmindlab/araelectra-base-generator"
)
print(
fill_mask(" عاصمة لبنان هي [MASK] .")
)
高度な使用法
このコードでは、transformers
ライブラリを使用して、fill-mask
タスクを実行するパイプラインを作成しています。特定のモデルとトークナイザーを指定し、マスクされたテキストに対する予測を行います。
📦 インストール
AraBERTの前処理関数を使用するには、arbert
パッケージをインストールします。
pip install arabert
📚 ドキュメント
前処理
任意のデータセットでトレーニング/テストを行う前に、前処理関数を適用することをおすすめします。
from arabert.preprocess import ArabertPreprocessor
model_name="aubmindlab/araelectra-base"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
>>> output: ولن نبالغ إذا قلنا : إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري
モデル情報
計算資源
Model |
Hardware |
num of examples (seq len = 512) |
Batch Size |
Num of Steps |
Time (in days) |
AraELECTRA-base |
TPUv3-8 |
- |
256 |
2M |
24 |
データセット
新しいAraELECTRAモデルの事前学習データは、AraGPT2とAraELECTRAでも使用されています。
データセットは、77GBまたは200,095,961行または8,655,948,860語または82,232,988,358文字(Farasaセグメンテーションを適用する前)で構成されています。
新しいデータセットでは、AraBERTv1で使用された前のデータセットに、完全にフィルタリングされた未シャッフルのOSCARコーパスを追加していますが、以前にクロールしたウェブサイトは除外しています。
TensorFlow 1.xモデル
PyTorch、TF2、TF1のモデルは、HuggingFaceのTransformerライブラリのaubmindlab
ユーザー名の下にあります。
wget https://huggingface.co/aubmindlab/MODEL_NAME/resolve/main/tf1_model.tar.gz
ここで、MODEL_NAME
はaubmindlab
名の下の任意のモデルです。
引用
このモデルを使用した場合は、以下のように引用してください。
@inproceedings{antoun-etal-2021-araelectra,
title = "{A}ra{ELECTRA}: Pre-Training Text Discriminators for {A}rabic Language Understanding",
author = "Antoun, Wissam and
Baly, Fady and
Hajj, Hazem",
booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop",
month = apr,
year = "2021",
address = "Kyiv, Ukraine (Virtual)",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.wanlp-1.20",
pages = "191--195",
}
謝辞
TensorFlow Research Cloud (TFRC)によるCloud TPUの無料アクセスに感謝します。また、AUB MIND Labのメンバーの継続的なサポートに感謝します。YakshofとAssafirにデータとストレージアクセスを提供してくれたことにも感謝します。さらに、Habib Rahal (https://www.behance.net/rahalhabib) がAraBERTに顔を与えてくれたことに感謝します。
連絡先
Wissam Antoun: Linkedin | Twitter | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly: Linkedin | Twitter | Github | fgb06@mail.aub.edu | baly.fady@gmail.com