AraGPT2-mediumオープンソース言語モデル - アラビア語のテキスト生成タスクを無料でサポート

Aragpt2 Medium

aubmindlabによって開発

AraGPT2はGPT2アーキテクチャに基づくアラビア語事前学習言語モデルで、AUB MIND Labによって開発され、アラビア語テキスト生成タスクをサポートします。

大規模言語モデルアラビア語#アラビア語生成 #大規模言語モデル #マルチドメイン適応

ダウンロード数 2,519

リリース時間 : 3/2/2022

モデル概要

AraGPT2はアラビア語に最適化されたGPT2の変種で、テキスト生成、言語モデリングなどの自然言語処理タスクに使用できます。モデルは大規模なアラビア語コーパスでトレーニングされ、基本版、ミディアム、ラージ、ジャイアントの4つのサイズがあります。

モデル特徴

アラビア語最適化

アラビア語の特性に特化して最適化され、大規模なアラビア語コーパスでトレーニングされています

マルチサイズ選択

基本版、ミディアム、ラージ、ジャイアントの4つのパラメータサイズのモデルを提供

Transformersライブラリ互換

HuggingFace Transformersライブラリと完全互換で、統合と使用が容易

TPU/GPUサポート

TPUEstimator APIを介してGPUとTPUでのトレーニングとファインチューニングをサポート

モデル能力

アラビア語テキスト生成

言語モデリング

テキスト自動補完

対話生成

使用事例

コンテンツ作成

アラビア語記事生成

プロンプトに基づいて一貫性のあるアラビア語の記事やストーリーを生成

教育アプリケーション

アラビア語学習支援

アラビア語学習教材や練習用テキストを生成

🚀 アラビア語版GPT2

このモデルは、大規模なアラビア語データセットで学習されたGPT2ベースのモデルで、アラビア語の自然言語生成に特化しています。

🚀 クイックスタート

このリポジトリのコードは、すべてのGPT2バリアントのトレーニングに使用されます。コードは、TPUEstimator APIを介してGPUとTPUでGPT2のトレーニングとファインチューニングをサポートしています。

詳細な情報は、論文 AraGPT2 を参照してください。

✨ 主な機能

GPT2-baseとmediumは、gpt2 フォルダのコードを使用し、minimaxir/gpt-2-simple リポジトリからモデルをトレーニングできます。これらのモデルは lamb オプティマイザを使用してトレーニングされ、gpt2 と同じアーキテクチャを持ち、transformers ライブラリと完全に互換性があります。
GPT2-largeとGPT2-megaは、imcaspar/gpt2-ml ライブラリを使用してトレーニングされ、grover アーキテクチャに従います。grover/modeling_gpt2.py のPyTorchクラスを transformers ライブラリのクラスの直接の代替として使用できます（transformers のバージョン v4.x をサポートするはずです）。これらのモデルは adafactor オプティマイザを使用してトレーニングされています。

📦 インストール

本家READMEにはインストール手順が明記されていないため、このセクションを省略します。

💻 使用例

基本的な使用法

transformers を使用してモデルをテストする例です。

from transformers import GPT2TokenizerFast, pipeline
#for base and medium
from transformers import GPT2LMHeadModel
#for large and mega
# pip install arabert
from arabert.aragpt2.grover.modeling_gpt2 import GPT2LMHeadModel

from arabert.preprocess import ArabertPreprocessor

MODEL_NAME='aubmindlab/aragpt2-medium'
arabert_prep = ArabertPreprocessor(model_name=MODEL_NAME)

text=""
text_clean = arabert_prep.preprocess(text)

model = GPT2LMHeadModel.from_pretrained(MODEL_NAME)
tokenizer = GPT2TokenizerFast.from_pretrained(MODEL_NAME)
generation_pipeline = pipeline("text-generation",model=model,tokenizer=tokenizer)

#feel free to try different decoding settings
generation_pipeline(text,
    pad_token_id=tokenizer.eos_token_id,
    num_beams=10,
    max_length=200,
    top_p=0.9,
    repetition_penalty = 3.0,
    no_repeat_ngram_size = 3)[0]['generated_text']

高度な使用法

`transformers` を使用したファインチューニング

こちらのガイドに従ってください。

TF 1.15.4 を使用したコードでのファインチューニング

トレーニング用のTFRecordsを作成します。

python create_pretraining_data.py
 --input_file=<RAW TEXT FILE with documents/article separated by an empty line>
 --output_file=<OUTPUT TFRecord>
 --tokenizer_dir=<Directory with the GPT2 Tokenizer files>

ファインチューニングを行います。

python3 run_pretraining.py \
--input_file="gs://<GS_BUCKET>/pretraining_data/*" \
--output_dir="gs://<GS_BUCKET>/pretraining_model/" \
--config_file="config/small_hparams.json" \
--batch_size=128 \
--eval_batch_size=8 \
--num_train_steps= \
--num_warmup_steps= \
--learning_rate= \
--save_checkpoints_steps= \
--max_seq_length=1024 \
--max_eval_steps= \
--optimizer="lamb" \
--iterations_per_loop=5000 \
--keep_checkpoint_max=10 \
--use_tpu=True \
--tpu_name=<TPU NAME> \
--do_train=True \
--do_eval=False

📚 ドキュメント

モデルのサイズ

モデル	オプティマイザ	コンテキストサイズ	埋め込みサイズ	ヘッド数	レイヤー数	モデルサイズ / パラメータ数
AraGPT2-base	`lamb`	1024	768	12	12	527MB / 135M
AraGPT2-medium	`lamb`	1024	1024	16	24	1.38G/370M
AraGPT2-large	`adafactor`	1024	1280	20	36	2.98GB/792M
AraGPT2-mega	`adafactor`	1024	1536	25	48	5.5GB/1.46B

すべてのモデルは、HuggingFace のモデルページで aubmindlab の名前で利用できます。チェックポイントは、PyTorch、TF2、TF1形式で利用可能です。

計算環境

モデル	ハードウェア	サンプル数 (シーケンス長 = 1024)	バッチサイズ	ステップ数	時間 (日数)
AraGPT2-base	TPUv3-128	9.7M	1792	125K	1.5
AraGPT2-medium	TPUv3-8	9.7M	80	1M	15
AraGPT2-large	TPUv3-128	9.7M	256	220k	3
AraGPT2-mega	TPUv3-128	9.7M	256	780K	9

データセット

新しいAraGPT2モデルの事前学習データは、AraBERTv2とAraELECTRA でも使用されています。

データセットは、77GB、または200,095,961行、または8,655,948,860語、または82,232,988,358文字（Farasa Segmentationを適用する前）で構成されています。

新しいデータセットでは、AraBERTv1で使用されたデータセットに、徹底的にフィルタリングされた未シャッフルのOSCARコーパスを追加していますが、以前にクロールしたウェブサイトは除外しています。

未シャッフルでフィルタリングされたOSCAR。
2020/09/01のアラビア語ウィキペディアダンプ
15億語のアラビア語コーパス
OSIANコーパス
Assafirのニュース記事。Assafirにデータを提供してくれたことに感謝します。

🔧 技術詳細

本家READMEには技術詳細に関する具体的な説明がないため、このセクションを省略します。

📄 ライセンス

本家READMEにはライセンス情報が明記されていないため、このセクションを省略します。

⚠️ 重要提示

AraGPT2によって生成されるテキストは、大量のテキストでトレーニングされたニューラルネットワークモデルによって自動生成されたものであり、著者やその所属機関の公式な態度や嗜好を表すものではありません。AraGPT2によって生成されるテキストは、研究および科学的目的のみに使用する必要があります。もしあなたの権利や利益を侵害したり、社会的な道徳に反する場合、拡散しないでください。

📝 引用

このモデルを使用した場合は、以下のように引用してください。

@inproceedings{antoun-etal-2021-aragpt2,
    title = "{A}ra{GPT}2: Pre-Trained Transformer for {A}rabic Language Generation",
    author = "Antoun, Wissam  and
      Baly, Fady  and
      Hajj, Hazem",
    booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop",
    month = apr,
    year = "2021",
    address = "Kyiv, Ukraine (Virtual)",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.wanlp-1.21",
    pages = "196--207",
}

🙏 謝辞

無料でCloud TPUにアクセスできるTensorFlow Research Cloud (TFRC) と、継続的なサポートを提供してくれた AUB MIND Lab のメンバーに感謝します。また、データとストレージへのアクセスを提供してくれた Yakshof とAssafirにも感謝します。さらに、AraBERTに顔を与えてくれたHabib Rahal (https://www.behance.net/rahalhabib) にも感謝します。