🚀 ArabicTransformer 小規模モデル (B6-6-6 with decoder)
このモデルは、Funnel Transformer と ELECTRA 目的を用いてアラビア語コーパスで事前学習されたアラビア語言語モデルです。少ない計算資源で、いくつかの下流タスクで最先端の結果を達成します。
🚀 クイックスタート
このセクションでは、ArabicTransformer モデルの概要と、関連する論文や使用例について説明します。
✨ 主な機能
- 効率的な事前学習:Funnel Transformer を用いることで、事前学習のコストを大幅に削減します。
- 高性能:他の BERT ベースのモデルと比較して、少ない計算資源で下流タスクで最先端の結果を達成します。
📚 ドキュメント
🔖 論文
ArabicTransformer: Efficient Large Arabic Language Model with Funnel Transformer and ELECTRA Objective
📝 概要
AraBERT と AraELECTRA の両方によって実証されているように、アラビア語コーパスのコレクション上で BERT や ELECTRA などの Transformer ベースのモデルを事前学習すると、下流タスクで印象的な結果が得られます。しかし、Transformer ベースの言語モデルの事前学習は計算コストが高く、特に大規模モデルの場合に顕著です。最近、Funnel Transformer は隠れ状態のシーケンスを圧縮することで、Transformer アーキテクチャ内の逐次的な冗長性を解消し、事前学習コストを大幅に削減しています。この論文では、Funnel Transformer と ELECTRA 目的を用いてアラビア語言語モデルを構築する際の性能と効率を実証的に研究しています。私たちは、このモデルが他の BERT ベースのモデルと比較して少ない計算資源を使用しながら、いくつかのアラビア語下流タスクで最先端の結果を達成することを見出しました。
📄 モデルの説明
このモデルは、Funnel Transformer with ELECTRA objective を使用して 44GB のアラビア語コーパスで事前学習されました。このモデルは ELECTRA-base アーキテクチャよりも多くのパラメータ (1.39x) を持ち、推論と微調整の時間は同等またはわずかに長くなります。このモデルは、最先端のモデルと比較して大幅に少ない資源で事前学習されました。
📊 アラビア語 TyDi QA での結果
モデル |
EM |
F1 |
AraBERT02-Large |
73.72 |
86.03 |
AraELECTRA-Base |
74.91 |
86.68 |
ArabicTransformer-Small |
74.70 |
85.89 |
ArabicTransformer-Base |
75.57 |
87.22 |
💻 使用例
- PyTorchXLA を使用した TPU または PyTorch を使用した GPU での ArabicTransformer によるテキスト分類(再現性は高いが速度が遅い)。

- TPU と Keras API を使用した ArabicTransformer によるテキスト分類(高速だが、再現性は PyTorchXLA ほど高くない)。

- ArabicTransformer による質問応答。

🌐 GitHub ページ
https://github.com/salrowili/ArabicTransformer
🙏 謝辞
私たちは、TPU Research Cloud (TRC) チームが TPUv3 ユニットへのアクセスを許可してくれたことに感謝します。
📖 引用
@inproceedings{alrowili-shanker-2021-arabictransformer-efficient,
title = "{A}rabic{T}ransformer: Efficient Large {A}rabic Language Model with Funnel Transformer and {ELECTRA} Objective",
author = "Alrowili, Sultan and
Shanker, Vijay",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-emnlp.108",
pages = "1255--1261",
abstract = "Pre-training Transformer-based models such as BERT and ELECTRA on a collection of Arabic corpora, demonstrated by both AraBERT and AraELECTRA, shows an impressive result on downstream tasks. However, pre-training Transformer-based language models is computationally expensive, especially for large-scale models. Recently, Funnel Transformer has addressed the sequential redundancy inside Transformer architecture by compressing the sequence of hidden states, leading to a significant reduction in the pre-training cost. This paper empirically studies the performance and efficiency of building an Arabic language model with Funnel Transformer and ELECTRA objective. We find that our model achieves state-of-the-art results on several Arabic downstream tasks despite using less computational resources compared to other BERT-based models.",
}