🚀 AraT5-base-title-generation
このプロジェクトは、アラビア語の言語生成に特化したテキスト-to-テキストのTransformerモデルであるAraT5を提供します。これらのモデルは、ニュースタイトル生成やテキスト要約など、様々なアラビア語のタスクに適用できます。
🚀 クイックスタート
このリポジトリは、論文 AraT5: Text-to-Text Transformers for Arabic Language Understanding and Generation に付随するものです。このリポジトリでは、AraT5MSA、AraT5Tweet、および AraT5 の3つの強力なアラビア語専用のテキスト-to-テキストTransformerベースのモデルを紹介しています。
✨ 主な機能
- 多様なアラビア語タスク対応:ニュースタイトル生成、テキスト要約、ニュースタイトルと質問生成、言い換えと音訳、コードスイッチ翻訳など、様々なアラビア語のタスクに対応しています。
- 特化型モデル:MSA(現代標準アラビア語)やツイートなど、特定のドメインに特化したモデルが用意されています。
📦 インストール
本リポジトリでは、具体的なインストール手順は記載されていませんが、以下のコード例を使用するためには、transformers
ライブラリが必要です。
pip install transformers
💻 使用例
基本的な使用法
以下は、Aranewsデータセットでニュースタイトル生成のために AraT5-base をファインチューニングする例です。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("UBC-NLP/AraT5-base-title-generation")
model = AutoModelForSeq2SeqLM.from_pretrained("UBC-NLP/AraT5-base-title-generation")
Document = "تحت رعاية صاحب السمو الملكي الأمير سعود بن نايف بن عبدالعزيز أمير المنطقة الشرقية اختتمت غرفة الشرقية مؤخرا، الثاني من مبادرتها لتأهيل وتدريب أبناء وبنات المملكة ضمن مبادرتها المجانية للعام 2019 حيث قدمت 6 برامج تدريبية نوعية. وثمن رئيس مجلس إدارة الغرفة، عبدالحكيم العمار الخالدي، رعاية سمو أمير المنطقة الشرقية للمبادرة، مؤكدا أن دعم سموه لجميع أنشطة ."
encoding = tokenizer.encode_plus(Document,pad_to_max_length=True, return_tensors="pt")
input_ids, attention_masks = encoding["input_ids"], encoding["attention_mask"]
outputs = model.generate(
input_ids=input_ids, attention_mask=attention_masks,
max_length=256,
do_sample=True,
top_k=120,
top_p=0.95,
early_stopping=True,
num_return_sequences=5
)
for id, output in enumerate(outputs):
title = tokenizer.decode(output, skip_special_tokens=True,clean_up_tokenization_spaces=True)
print("title#"+str(id), title)
生成されたタイトル
title#0 غرفة الشرقية تختتم المرحلة الثانية من مبادرتها لتأهيل وتدريب أبناء وبنات المملكة
title#1 غرفة الشرقية تختتم الثاني من مبادرة تأهيل وتأهيل أبناء وبناتنا
title#2 سعود بن نايف يختتم ثانى مبادراتها لتأهيل وتدريب أبناء وبنات المملكة
title#3 أمير الشرقية يرعى اختتام برنامج برنامج تدريب أبناء وبنات المملكة
title#4 سعود بن نايف يرعى اختتام مبادرة تأهيل وتدريب أبناء وبنات المملكة
📚 ドキュメント
AraT5モデルのチェックポイント
AraT5のPytorchとTensorFlowのチェックポイントは、Huggingfaceのウェブサイトで直接ダウンロードして使用できます。ただし、これらは 研究目的のみ で使用できます。商用利用の場合は、著者にメールで連絡してください(muhammad.mageed[at]ubc[dot]ca)。
BibTex
もしあなたが科学的な出版物で当社のモデル(Arat5-base、Arat5-msa-base、Arat5-tweet-base、Arat5-msa-small、またはArat5-tweet-small)を使用する場合、またはこのリポジトリのリソースが役に立った場合は、以下のように論文を引用してください(更新予定)。
@inproceedings{nagoudi-etal-2022-arat5,
title = "{A}ra{T}5: Text-to-Text Transformers for {A}rabic Language Generation",
author = "Nagoudi, El Moatez Billah and
Elmadany, AbdelRahim and
Abdul-Mageed, Muhammad",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.acl-long.47",
pages = "628--647",
abstract = "Transfer learning with a unified Transformer framework (T5) that converts all language problems into a text-to-text format was recently proposed as a simple and effective transfer learning approach. Although a multilingual version of the T5 model (mT5) was also introduced, it is not clear how well it can fare on non-English tasks involving diverse data. To investigate this question, we apply mT5 on a language with a wide variety of dialects{--}Arabic. For evaluation, we introduce a novel benchmark for ARabic language GENeration (ARGEN), covering seven important tasks. For model comparison, we pre-train three powerful Arabic T5-style models and evaluate them on ARGEN. Although pre-trained with {\textasciitilde}49 less data, our new models perform significantly better than mT5 on all ARGEN tasks (in 52 out of 59 test sets) and set several new SOTAs. Our models also establish new SOTA on the recently-proposed, large Arabic language understanding evaluation benchmark ARLUE (Abdul-Mageed et al., 2021). Our new models are publicly available. We also link to ARGEN datasets through our repository: https://github.com/UBC-NLP/araT5.",
}
📄 ライセンス
本リポジトリのモデルは、研究目的のみでの使用が許可されています。商用利用の場合は、著者にメールで連絡してください(muhammad.mageed[at]ubc[dot]ca)。
謝辞
カナダ自然科学・工学研究評議会、カナダ社会科学・人文科学研究評議会、カナダイノベーション財団、ComputeCanada、および UBC ARC-Sockeye からの支援に感謝します。また、Google TensorFlow Research Cloud (TFRC) プログラムが無料のTPUアクセスを提供してくれたことにも感謝します。