AraGPT2-largeオープンソースアラビア語生成モデル - 多規模バリエーションのアプリケーションを無料でサポート

ホーム

Aragpt2 Large

aubmindlabによって開発

AraGPT2はGPT2アーキテクチャに基づいて事前学習されたアラビア語生成モデルで、AUB MIND研究所によって開発され、さまざまなサイズのモデルバリアントをサポートしています。

大規模言語モデルアラビア語オープンソースライセンス:その他 #アラビア語生成 #大規模言語モデル #テキスト前処理依存

ダウンロード数 1,299

リリース時間 : 3/2/2022

モデル概要

AraGPT2はアラビア語に最適化されたテキスト生成モデルで、GPT2アーキテクチャに基づき、大規模なアラビア語データセットで訓練されており、一貫性のあるアラビア語テキストを生成できます。

モデル特徴

アラビア語最適化

アラビア語に特化して訓練および最適化されており、AraBERTv2と同じ大規模データセットを使用

マルチサイズモデル

基本版、中型、大型、超大型の4つのサイズのモデルを提供

前処理サポート

最適な結果を得るためにはarabertライブラリを使用したテキスト前処理が必要

効率的な訓練

大型および超大型モデルはadafactorオプティマイザーを使用し、メモリ使用量を削減

モデル能力

アラビア語テキスト生成

テキスト自動補完

言語モデルのファインチューニング

使用事例

コンテンツ生成

アラビア語記事生成

一貫性のあるアラビア語の記事や段落を生成

アラビア語の文法とスタイルに合ったテキストを生成可能

教育

アラビア語学習支援

アラビア語学習教材や練習問題を生成

🚀 アラビア語GPT2

このモデルは、大規模なアラビア語データセットを使用して訓練されたGPT2ベースの言語モデルです。異なるサイズのモデルが提供され、GPUやTPUでの訓練と微調整がサポートされています。

🚀 クイックスタート

論文 AraGPT2 で詳細を確認できます。このリポジトリのコードは、すべてのGPT2バリアントの訓練に使用されました。コードは、TPUEstimator APIを介してGPUとTPUでのGPT2の訓練と微調整をサポートしています。

✨ 主な機能

複数のサイズのGPT2モデルをサポート（base、medium、large、mega）
GPUとTPUでの訓練と微調整が可能
transformers ライブラリと互換性がある

📦 インストール

モデルのテスト

モデルコードはHuggingFaceにホストされているため、trust_remote_code フラグを使用する必要があります。以下のように使用できます。

from transformers import AutoModelForCausalLM, pipeline
from arabert.preprocess import ArabertPreprocessor

MODEL_NAME='aubmindlab/aragpt2-large'
arabert_prep = ArabertPreprocessor(model_name=MODEL_NAME)

text=""
text_clean = arabert_prep.preprocess(text)

model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, trust_remote_code=True)
tokenizer = GPT2TokenizerFast.from_pretrained(MODEL_NAME)
generation_pipeline = pipeline(
    "text-generation", model=MODEL_NAME, trust_remote_code=True
)

# 異なるデコード設定を試してみてください
generation_pipeline(text,
    pad_token_id=pipeline.tokenizer.eos_token_id,
    num_beams=10,
    max_length=200,
    top_p=0.9,
    repetition_penalty = 3.0,
    no_repeat_ngram_size = 3)[0]['generated_text']

`transformers` を使用した微調整

こちらのガイドに従ってください。

TF 1.15.4を使用した微調整

訓練用TFRecordsの作成

python create_pretraining_data.py
 --input_file=<RAW TEXT FILE with documents/article separated by an empty line>
 --output_file=<OUTPUT TFRecord>
 --tokenizer_dir=<Directory with the GPT2 Tokenizer files>

微調整

python3 run_pretraining.py \
  --input_file="gs://<GS_BUCKET>/pretraining_data/*" \
  --output_dir="gs://<GS_BUCKET>/pretraining_model/" \
  --config_file="config/small_hparams.json" \
  --batch_size=128 \
  --eval_batch_size=8 \
  --num_train_steps= \
  --num_warmup_steps= \
  --learning_rate= \
  --save_checkpoints_steps= \
  --max_seq_length=1024 \
  --max_eval_steps= \
  --optimizer="lamb" \
  --iterations_per_loop=5000 \
  --keep_checkpoint_max=10 \
  --use_tpu=True \
  --tpu_name=<TPU NAME> \
  --do_train=True \
  --do_eval=False

📚 ドキュメント

モデルのサイズ

モデル	オプティマイザー	コンテキストサイズ	埋め込みサイズ	ヘッド数	レイヤー数	モデルサイズ / パラメータ数
AraGPT2-base	`lamb`	1024	768	12	12	527MB/135M
AraGPT2-medium	`lamb`	1024	1024	16	24	1.38G/370M
AraGPT2-large	`adafactor`	1024	1280	20	36	2.98GB/792M
AraGPT2-mega	`adafactor`	1024	1536	25	48	5.5GB/1.46B

すべてのモデルは、aubmindlab の名前で HuggingFace モデルページにあります。チェックポイントはPyTorch、TF2、TF1形式で利用可能です。

コンピューティング

データセットのソースについては、データセットセクションを参照してください。

モデル	ハードウェア	サンプル数 (シーケンス長 = 1024)	バッチサイズ	ステップ数	時間 (日)
AraGPT2-base	TPUv3-128	9.7M	1792	125K	1.5
AraGPT2-medium	TPUv3-8	9.7M	1152	85K	1.5
AraGPT2-large	TPUv3-128	9.7M	256	220k	3
AraGPT2-mega	TPUv3-128	9.7M	256	780K	9

データセット

新しいAraBERTモデルに使用される事前学習データは、GPT2とELECTRAにも使用されます。データセットは、77GB、または200,095,961行、または8,655,948,860語、または82,232,988,358文字（Farasaセグメンテーションを適用する前）で構成されています。新しいデータセットでは、徹底的にフィルタリングされた未シャッフルのOSCARコーパスを、AraBERTv1で使用された以前のデータセットに追加しましたが、以前にクロールしたウェブサイトは除外しています。

未シャッフルでフィルタリングされたOSCAR
アラビア語ウィキペディアダンプ (2020/09/01)
15億語のアラビア語コーパス
OSIANコーパス
アサフィールのニュース記事。アサフィールにデータを提供してくれたことに感謝します。

📄 ライセンス

このモデルは custom ライセンスの下で提供されています。

免責事項

GPT2アラビア語によって生成されたテキストは、大量のテキストで訓練されたニューラルネットワークモデルによって自動生成されたものであり、著者やその所属機関の公式な態度や嗜好を表すものではありません。GPT2アラビア語によって生成されたテキストは、研究および科学目的のみに使用する必要があります。もしあなたの権利や利益を侵害したり、社会的な道徳に反したりする場合は、広めないでください。

引用

このモデルを使用した場合は、以下のように引用してください。

@inproceedings{antoun-etal-2021-aragpt2,
    title = "{A}ra{GPT}2: Pre-Trained Transformer for {A}rabic Language Generation",
    author = "Antoun, Wissam  and
      Baly, Fady  and
      Hajj, Hazem",
    booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop",
    month = apr,
    year = "2021",
    address = "Kyiv, Ukraine (Virtual)",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.wanlp-1.21",
    pages = "196--207",
}

謝辞

TensorFlow Research Cloud (TFRC) がCloud TPUへの無料アクセスを提供してくれたこと、AUB MIND Lab のメンバーが継続的にサポートしてくれたことに感謝します。また、Yakshof とアサフィールがデータとストレージへのアクセスを提供してくれたこと、Habib Rahal (https://www.behance.net/rahalhabib) がAraBERTに顔を与えてくれたことにも感謝します。