AraELECTRA-base-generatorオープンソースモデル - アラビア語の効率的な言語理解と処理を実現

ホーム

Araelectra Base Generator

aubmindlabによって開発

AraELECTRAはELECTRAアーキテクチャに基づくアラビア語事前学習言語モデルで、識別的な事前学習方法により効率的な言語理解を実現します。

大規模言語モデル

Transformers

アラビア語#アラビア語テキスト理解 #ELECTRA事前学習 #低計算コスト

ダウンロード数 151

リリース時間 : 3/2/2022

モデル概要

AraELECTRAはELECTRAアーキテクチャに基づくアラビア語事前学習モデルで、識別的な事前学習方法を採用し、実際の入力トークンと生成されたトークンを区別して学習します。アラビア語テキスト理解タスクに適しています。

モデル特徴

効率的な事前学習

ELECTRAの識別的な事前学習方法を採用し、従来のMLMと比べてより効率的で計算コストが低いです。

アラビア語最適化

アラビア語に特化して設計・最適化されており、アラビア語の質問応答タスクで最先端の性能を達成しています。

多様なデータ

77GBの多様なアラビア語データ（ウィキペディア、ニュース、ウェブテキストなど）で事前学習されています。

モデル能力

アラビア語テキスト理解

テキスト穴埋め

質問応答システム

テキスト分類

使用事例

自然言語処理

テキスト穴埋め

文の欠落部分を埋める。例：'レバノンの首都は[MASK]。'

欠落語を'ベイルート'と正確に予測

質問応答システム

アラビア語質問応答システムの構築

アラビア語質問応答データセットで最先端の性能を達成

🚀 AraELECTRA

ELECTRAは、自己教師付き言語表現学習の手法です。比較的少ない計算資源でトランスフォーマーネットワークを事前学習するために使用できます。ELECTRAモデルは、別のニューラルネットワークによって生成された「偽」の入力トークンと「真」の入力トークンを区別するように学習され、GANの識別器に似ています。AraELECTRAは、アラビア語のQAデータセットで最先端の結果を達成しています。

詳細な説明については、AraELECTRAの論文 AraELECTRA: Pre-Training Text Discriminators for Arabic Language Understanding を参照してください。

🚀 クイックスタート

💻 使用例

基本的な使用法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="aubmindlab/araelectra-base-generator",
    tokenizer="aubmindlab/araelectra-base-generator"
)

print(
    fill_mask(" عاصمة لبنان هي [MASK] .")
)

高度な使用法

このコードでは、transformersライブラリを使用して、fill-maskタスクを実行するパイプラインを作成しています。特定のモデルとトークナイザーを指定し、マスクされたテキストに対する予測を行います。

📦 インストール

AraBERTの前処理関数を使用するには、arbertパッケージをインストールします。

pip install arabert

📚 ドキュメント

前処理

任意のデータセットでトレーニング/テストを行う前に、前処理関数を適用することをおすすめします。

from arabert.preprocess import ArabertPreprocessor

model_name="aubmindlab/araelectra-base"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)

>>> output: ولن نبالغ إذا قلنا : إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري

モデル情報

Property	Details
Model Type	AraELECTRA-base-generator、AraELECTRA-base-discriminator
HuggingFace Model Name	araelectra-base-generator、araelectra-base-discriminator
Size	227MB/60M（AraELECTRA-base-generator）、516MB/135M（AraELECTRA-base-discriminator）

計算資源

Model	Hardware	num of examples (seq len = 512)	Batch Size	Num of Steps	Time (in days)
AraELECTRA-base	TPUv3-8	-	256	2M	24

データセット

新しいAraELECTRAモデルの事前学習データは、AraGPT2とAraELECTRAでも使用されています。

データセットは、77GBまたは200,095,961行または8,655,948,860語または82,232,988,358文字（Farasaセグメンテーションを適用する前）で構成されています。

新しいデータセットでは、AraBERTv1で使用された前のデータセットに、完全にフィルタリングされた未シャッフルのOSCARコーパスを追加していますが、以前にクロールしたウェブサイトは除外しています。

OSCAR（未シャッフルかつフィルタリング済み）
Arabic Wikipedia dump（2020/09/01）
The 1.5B words Arabic Corpus
The OSIAN Corpus
Assafirのニュース記事。Assafirにデータを提供してくれたことに感謝します。

TensorFlow 1.xモデル

PyTorch、TF2、TF1のモデルは、HuggingFaceのTransformerライブラリのaubmindlabユーザー名の下にあります。

wget https://huggingface.co/aubmindlab/MODEL_NAME/resolve/main/tf1_model.tar.gz

ここで、MODEL_NAMEはaubmindlab名の下の任意のモデルです。

引用

このモデルを使用した場合は、以下のように引用してください。

@inproceedings{antoun-etal-2021-araelectra,
    title = "{A}ra{ELECTRA}: Pre-Training Text Discriminators for {A}rabic Language Understanding",
    author = "Antoun, Wissam  and
      Baly, Fady  and
      Hajj, Hazem",
    booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop",
    month = apr,
    year = "2021",
    address = "Kyiv, Ukraine (Virtual)",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.wanlp-1.20",
    pages = "191--195",
}

謝辞

TensorFlow Research Cloud (TFRC)によるCloud TPUの無料アクセスに感謝します。また、AUB MIND Labのメンバーの継続的なサポートに感謝します。YakshofとAssafirにデータとストレージアクセスを提供してくれたことにも感謝します。さらに、Habib Rahal (https://www.behance.net/rahalhabib) がAraBERTに顔を与えてくれたことに感謝します。