AraGPT2-base開源阿拉伯語生成模型 - 免費支持多規模變體創作內容

首頁

Aragpt2 Base

由aubmindlab開發

AraGPT2是基於Transformer架構的阿拉伯語生成預訓練模型，由AUB MIND實驗室開發，支持多種規模的模型變體。

大型語言模型阿拉伯語#阿拉伯語生成 #大語言模型 #多領域適配

下載量 21.26k

發布時間 : 3/2/2022

模型概述

AraGPT2是一個專門針對阿拉伯語文本生成任務優化的GPT-2模型系列，包含基礎版、中型、大型和巨型四種規模，支持在GPU和TPU上進行訓練與微調。

模型特點

多規模模型

提供四種不同規模的模型變體，從1.35億參數的基礎版到14.6億參數的巨型版，滿足不同計算需求

阿拉伯語優化

專門針對阿拉伯語特性進行優化，使用77GB高質量阿拉伯語語料訓練

TPU/GPU支持

支持通過TPUEstimator API在GPU和TPU上進行訓練與微調

Transformers兼容

基礎版和中型完全兼容HuggingFace Transformers庫，大型和巨型版可通過適配類兼容

模型能力

阿拉伯語文本生成

文本自動補全

語言模型微調

使用案例

內容生成

新聞寫作輔助

基於提示生成新聞文章片段

可生成符合阿拉伯語語法和風格的連貫文本

故事創作

根據開頭提示生成完整故事

能保持敘事連貫性和文化相關性

教育應用

語言學習

生成阿拉伯語學習材料和練習題

提供符合學習目標的定製化內容

🚀 阿拉伯語GPT2模型

阿拉伯語GPT2是基於GPT2架構的預訓練模型，可用於多種阿拉伯語自然語言處理任務，如文本生成等，為阿拉伯語的語言處理研究和應用提供了強大的工具。

🚀 快速開始

你可以在我們的論文 AraGPT2 中找到更多信息。本倉庫中的代碼用於訓練所有GPT2變體。該代碼支持通過TPUEstimator API在GPU和TPU上訓練和微調GPT2。

✨ 主要特性

多架構支持：GPT2-base和medium使用 gpt2 文件夾中的代碼，可從 minimaxir/gpt-2-simple 倉庫訓練模型；GPT2-large和GPT2-mega使用 imcaspar/gpt2-ml 庫訓練，遵循 grover 架構。
多優化器適配：不同規模的模型使用不同的優化器，如 lamb 和 adafactor，以適應不同的訓練需求。
多格式兼容：模型支持PyTorch、TF2和TF1等多種格式。

📦 安裝指南

使用 `transformers` 庫

pip install transformers

若使用GPT2-large和GPT2-mega，還需安裝 arabert：

pip install arabert

💻 使用示例

基礎用法

使用 transformers 庫測試模型：

from transformers import GPT2TokenizerFast, pipeline
#for base and medium
from transformers import GPT2LMHeadModel
#for large and mega
# pip install arabert
from arabert.aragpt2.grover.modeling_gpt2 import GPT2LMHeadModel

from arabert.preprocess import ArabertPreprocessor

MODEL_NAME='aubmindlab/aragpt2-base'
arabert_prep = ArabertPreprocessor(model_name=MODEL_NAME)

text=""
text_clean = arabert_prep.preprocess(text)

model = GPT2LMHeadModel.from_pretrained(MODEL_NAME)
tokenizer = GPT2TokenizerFast.from_pretrained(MODEL_NAME)
generation_pipeline = pipeline("text-generation",model=model,tokenizer=tokenizer)

#feel free to try different decoding settings
generation_pipeline(text,
    pad_token_id=tokenizer.eos_token_id,
    num_beams=10,
    max_length=200,
    top_p=0.9,
    repetition_penalty = 3.0,
    no_repeat_ngram_size = 3)[0]['generated_text']

高級用法

使用 `transformers` 庫微調模型

請遵循此指南進行操作。

使用我們的代碼和TF 1.15.4進行微調

創建訓練TFRecords：

python create_pretraining_data.py
 --input_file=<RAW TEXT FILE with documents/article separated by an empty line>
 --output_file=<OUTPUT TFRecord>
 --tokenizer_dir=<Directory with the GPT2 Tokenizer files>

微調：

python3 run_pretraining.py \\r\n --input_file="gs://<GS_BUCKET>/pretraining_data/*" \\r\n --output_dir="gs://<GS_BUCKET>/pretraining_model/" \\r\n --config_file="config/small_hparams.json" \\r\n --batch_size=128 \\r\n --eval_batch_size=8 \\r\n --num_train_steps= \\r\n --num_warmup_steps= \\r\n --learning_rate= \\r\n --save_checkpoints_steps= \\r\n --max_seq_length=1024 \\r\n --max_eval_steps= \\r\n --optimizer="lamb" \\r\n --iterations_per_loop=5000 \\r\n --keep_checkpoint_max=10 \\r\n --use_tpu=True \\r\n --tpu_name=<TPU NAME> \\r\n --do_train=True \\r\n --do_eval=False

📚 詳細文檔

模型規格

模型	優化器	上下文大小	嵌入大小	頭數	層數	模型大小/參數數量
AraGPT2-base	`lamb`	1024	768	12	12	527MB / 135M
AraGPT2-medium	`lamb`	1024	1024	16	24	1.38G/370M
AraGPT2-large	`adafactor`	1024	1280	20	36	2.98GB/792M
AraGPT2-mega	`adafactor`	1024	1536	25	48	5.5GB/1.46B

所有模型均可在 HuggingFace 模型頁面的 aubmindlab 下找到。檢查點支持PyTorch、TF2和TF1格式。

計算資源

模型	硬件	示例數量（序列長度 = 1024）	批量大小	步數	時間（天）
AraGPT2-base	TPUv3-128	9.7M	1792	125K	1.5
AraGPT2-medium	TPUv3-8	9.7M	1152	85K	1.5
AraGPT2-large	TPUv3-128	9.7M	256	220k	3
AraGPT2-mega	TPUv3-128	9.7M	256	780K	9

數據集

預訓練新的AraGPT2模型所使用的數據也用於 AraBERTv2和AraELECTRA。

數據集包含77GB、200,095,961行、8,655,948,860個單詞或82,232,988,358個字符（應用Farasa分割之前）。

對於新數據集，我們在徹底過濾未打亂的OSCAR語料庫後，將其添加到AraBERTv1使用的數據集中，但不包括之前爬取的網站：

未打亂和過濾後的OSCAR語料庫。
2020/09/01的阿拉伯語維基百科轉儲
15億單詞的阿拉伯語語料庫
OSIAN語料庫
Assafir新聞文章。非常感謝Assafir提供數據。

🔧 技術細節

模型架構

GPT2-base和medium遵循 gpt2 架構，GPT2-large和GPT2-mega遵循 grover 架構。

優化器選擇

不同規模的模型使用不同的優化器，如 lamb 和 adafactor，以適應不同的訓練需求。adafactor 優化器在訓練大型模型時可以減少內存使用，避免因內存不足而無法訓練。

📄 許可證

請遵循相關開源許可證使用本模型。

⚠️ 重要提示

AraGPT2生成的文本是由在大量文本上訓練的神經網絡模型自動生成的，不代表作者或其機構的官方態度和偏好。AraGPT2生成的文本僅應用於研究和科學目的。如果它侵犯了你的權益或違反了社會道德，請不要傳播它。

💡 使用建議

在使用模型時，可以嘗試不同的解碼設置，如 num_beams、max_length、top_p 等，以獲得更好的生成效果。

📖 引用

如果你使用了此模型，請按以下方式引用我們：

@inproceedings{antoun-etal-2021-aragpt2,
    title = "{A}ra{GPT}2: Pre-Trained Transformer for {A}rabic Language Generation",
    author = "Antoun, Wissam  and
      Baly, Fady  and
      Hajj, Hazem",
    booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop",
    month = apr,
    year = "2021",
    address = "Kyiv, Ukraine (Virtual)",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.wanlp-1.21",
    pages = "196--207",
}

🙏 致謝

感謝TensorFlow Research Cloud (TFRC) 免費提供Cloud TPU，沒有這個項目我們無法完成這項工作。感謝 AUB MIND Lab 成員的持續支持。也感謝 Yakshof 和Assafir提供數據和存儲訪問。感謝Habib Rahal (https://www.behance.net/rahalhabib) 為AraBERT設計形象。