AraT5-base-title-generation开源模型 - 免费实现多种阿拉伯语版本文本生成

首页

Arat5 Base Title Generation

由 UBC-NLP 开发

AraT5是专为阿拉伯语设计的文本生成模型系列，包含现代标准阿拉伯语版、推特版和通用版

大型语言模型

Transformers

阿拉伯语#阿拉伯语新闻标题生成 #多方言阿拉伯语处理 #T5架构优化

下载量 117

发布时间 : 3/2/2022

模型简介

基于Transformer的阿拉伯语专用文本生成模型，支持新闻标题生成、文本摘要、机器翻译等多种任务

模型特点

多领域适配

提供现代标准阿拉伯语、推特方言和通用三种专用版本

多任务支持

支持标题生成、文本摘要、机器翻译、改写转写等多种文本生成任务

方言处理能力

特别优化了对阿拉伯语方言（如推特数据）的处理能力

模型能力

新闻标题生成

文本摘要

机器翻译

文本改写

代码转换翻译

问题生成

使用案例

新闻媒体

阿拉伯新闻标题自动生成

根据新闻正文自动生成多个候选标题

如示例所示可生成5个语义准确的标题变体

社交媒体

推特内容摘要

对阿拉伯语推特内容进行自动摘要

🚀 AraT5-base-title-generation：用于阿拉伯语生成的文本到文本Transformer模型

本项目聚焦于阿拉伯语生成任务，推出了强大的特定阿拉伯语文本到文本Transformer模型，可广泛应用于新闻标题生成、文本摘要、机器翻译等多个领域，为阿拉伯语自然语言处理提供了有力支持。

🚀 快速开始

本仓库与我们的论文 AraT5: Text-to-Text Transformers for Arabic Language Understanding and Generation 配套。在本仓库中，我们介绍了 AraT5_MSA、AraT5_Tweet 和 AraT5 这三个强大的特定阿拉伯语文本到文本Transformer模型。

💻 使用示例

基础用法

以下是在Aranews数据集上微调 AraT5-base 进行新闻标题生成的示例：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("UBC-NLP/AraT5-base-title-generation")  
model = AutoModelForSeq2SeqLM.from_pretrained("UBC-NLP/AraT5-base-title-generation")

Document = "تحت رعاية صاحب السمو الملكي الأمير سعود بن نايف بن عبدالعزيز أمير المنطقة الشرقية اختتمت غرفة الشرقية مؤخرا، الثاني من مبادرتها لتأهيل وتدريب أبناء وبنات المملكة ضمن مبادرتها المجانية للعام 2019 حيث قدمت 6 برامج تدريبية نوعية. وثمن رئيس مجلس إدارة الغرفة، عبدالحكيم العمار الخالدي، رعاية سمو أمير المنطقة الشرقية للمبادرة، مؤكدا أن دعم سموه لجميع أنشطة ."

encoding = tokenizer.encode_plus(Document,pad_to_max_length=True, return_tensors="pt")
input_ids, attention_masks = encoding["input_ids"], encoding["attention_mask"]


outputs = model.generate(
    input_ids=input_ids, attention_mask=attention_masks,
    max_length=256,
    do_sample=True,
    top_k=120,
    top_p=0.95,
    early_stopping=True,
    num_return_sequences=5
)

for id, output in enumerate(outputs):
    title = tokenizer.decode(output, skip_special_tokens=True,clean_up_tokenization_spaces=True)
    print("title#"+str(id), title)

输入的新闻文档

تحت رعاية صاحب السمو الملكي الأمير سعود بن نايف بن عبدالعزيز أمير المنطقة الشرقية اختتمت غرفة الشرقية مؤخرا، الثاني من مبادرتها لتأهيل وتدريب أبناء وبنات المملكة ضمن مبادرتها المجانية للعام 2019 حيث قدمت 6 برامج تدريبية نوعية. وثمن رئيس مجلس إدارة الغرفة، عبدالحكيم العمار الخالدي، رعاية سمو أمير المنطقة الشرقية للمبادرة، مؤكدا أن دعم سموه لجميع أنشطة .
  

生成的标题

title#0 غرفة الشرقية تختتم المرحلة الثانية من مبادرتها لتأهيل وتدريب أبناء وبنات المملكة
title#1 غرفة الشرقية تختتم الثاني من مبادرة تأهيل وتأهيل أبناء وبناتنا
title#2 سعود بن نايف يختتم ثانى مبادراتها لتأهيل وتدريب أبناء وبنات المملكة
title#3 أمير الشرقية يرعى اختتام برنامج برنامج تدريب أبناء وبنات المملكة
title#4 سعود بن نايف يرعى اختتام مبادرة تأهيل وتدريب أبناء وبنات المملكة

📦 AraT5模型检查点

AraT5的Pytorch和TensorFlow检查点可在Huggingface网站上直接下载并使用，仅限用于研究目的。如需商业使用，请通过电子邮件 @ (muhammad.mageed[at]ubc[dot]ca) 联系作者。

模型	链接
AraT5-base	https://huggingface.co/UBC-NLP/AraT5-base
AraT5-msa-base	https://huggingface.co/UBC-NLP/AraT5-msa-base
AraT5-tweet-base	https://huggingface.co/UBC-NLP/AraT5-tweet-base
AraT5-msa-small	https://huggingface.co/UBC-NLP/AraT5-msa-small
AraT5-tweet-small	https://huggingface.co/UBC-NLP/AraT5-tweet-small

📚 BibTex引用

如果您在科学出版物中使用我们的模型（Arat5-base、Arat5-msa-base、Arat5-tweet-base、Arat5-msa-small或Arat5-tweet-small），或者发现本仓库中的资源有用，请按以下方式引用我们的论文（待更新）：

@inproceedings{nagoudi-etal-2022-arat5,
    title = "{A}ra{T}5: Text-to-Text Transformers for {A}rabic Language Generation",
    author = "Nagoudi, El Moatez Billah  and
      Elmadany, AbdelRahim  and
      Abdul-Mageed, Muhammad",
    booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.acl-long.47",
    pages = "628--647",
    abstract = "Transfer learning with a unified Transformer framework (T5) that converts all language problems into a text-to-text format was recently proposed as a simple and effective transfer learning approach. Although a multilingual version of the T5 model (mT5) was also introduced, it is not clear how well it can fare on non-English tasks involving diverse data. To investigate this question, we apply mT5 on a language with a wide variety of dialects{--}Arabic. For evaluation, we introduce a novel benchmark for ARabic language GENeration (ARGEN), covering seven important tasks. For model comparison, we pre-train three powerful Arabic T5-style models and evaluate them on ARGEN. Although pre-trained with {\textasciitilde}49 less data, our new models perform significantly better than mT5 on all ARGEN tasks (in 52 out of 59 test sets) and set several new SOTAs. Our models also establish new SOTA on the recently-proposed, large Arabic language understanding evaluation benchmark ARLUE (Abdul-Mageed et al., 2021). Our new models are publicly available. We also link to ARGEN datasets through our repository: https://github.com/UBC-NLP/araT5.",
}