🚀 新闻文章自动摘要
本模型基于facebook/mbart-large-50
模型,并使用MLSUM数据库中的新闻文章进行微调。我们假设文章的标题是很好的参考摘要。
🚀 快速开始
本模型可用于新闻文章的自动摘要生成,能帮助用户快速获取文章核心内容。
✨ 主要特性
- 模型基础:基于
facebook/mbart-large-50
模型进行微调。
- 数据来源:使用MLSUM数据库中的新闻文章进行训练。
📦 安装指南
暂未提及安装相关内容,跳过此章节。
💻 使用示例
基础用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from transformers import SummarizationPipeline
model_name = 'lincoln/mbart-mlsum-automatic-summarization'
loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
nlp = SummarizationPipeline(model=loaded_model, tokenizer=loaded_tokenizer)
nlp("""
« La veille de l’ouverture, je vais faire venir un coach pour les salariés qui reprendront le travail.
Cela va me coûter 300 euros, mais après des mois d’oisiveté obligatoire, la reprise n’est pas simple.
Certains sont au chômage partiel depuis mars 2020 », raconte Alain Fontaine, propriétaire du restaurant Le Mesturet,
dans le quartier de la Bourse, à Paris. Cette date d’ouverture, désormais, il la connaît. Emmanuel Macron a, en effet,
donné le feu vert pour un premier accueil des clients en terrasse, mercredi 19 mai. M. Fontaine imagine même faire venir un orchestre ce jour-là pour fêter l’événement.
Il lui reste toutefois à construire sa terrasse. Il pensait que les ouvriers passeraient samedi 1er mai pour l’installer, mais, finalement, le rendez-vous a été décalé.
Pour l’instant, le tas de bois est entreposé dans la salle de restaurant qui n’a plus accueilli de convives depuis le 29 octobre 2020,
quand le couperet de la fermeture administrative est tombé.M. Fontaine, président de l’Association française des maîtres restaurateurs,
ne manquera pas de concurrents prêts à profiter de ce premier temps de réouverture des bars et restaurants. Même si le couvre-feu limite le service à 21 heures.
D’autant que la Mairie de Paris vient d’annoncer le renouvellement des terrasses éphémères installées en 2020 et leur gratuité jusqu’à la fin de l’été.
""")
📚 详细文档
训练过程
我们测试了两种模型架构(T5和BART),输入文本的长度为512或1024个标记。最终选择了具有512个标记的BART模型。
该模型在Tesla V100上进行了2个周期(约700K篇文章)的训练,训练时长为32小时。
结果展示

我们将我们的模型(图中的mbart-large-512-full
)与两个参考模型进行了比较:
- MBERT:对应于MLSUM文章数据库原始团队训练的模型性能。
- Barthez:另一个基于OrangeSum数据库中新闻文章的模型。
可以看到,我们模型的新颖性得分(参见MLSUM论文)与这两个参考模型仍不可比,更无法与人工生成的摘要相比。不过,生成的摘要总体质量较好。
🔧 技术细节
本模型基于facebook/mbart-large-50
进行微调,在模型架构选择上经过了对T5和BART的测试,最终确定使用BART模型并将输入文本长度设置为512个标记。训练过程在特定硬件上进行了一定周期的训练,以达到较好的摘要生成效果。
📄 许可证
本项目采用MIT许可证。
📖 引用
@article{scialom2020mlsum,
title={MLSUM: The Multilingual Summarization Corpus},
author={Thomas Scialom and Paul-Alexis Dray and Sylvain Lamprier and Benjamin Piwowarski and Jacopo Staiano},
year={2020},
eprint={2004.14900},
archivePrefix={arXiv},
primaryClass={cs.CL}
}