🚀 新聞文章自動摘要
本模型基於facebook/mbart-large-50
模型,並使用MLSUM數據庫中的新聞文章進行微調。我們假設文章的標題是很好的參考摘要。
🚀 快速開始
本模型可用於新聞文章的自動摘要生成,能幫助用戶快速獲取文章核心內容。
✨ 主要特性
- 模型基礎:基於
facebook/mbart-large-50
模型進行微調。
- 數據來源:使用MLSUM數據庫中的新聞文章進行訓練。
📦 安裝指南
暫未提及安裝相關內容,跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from transformers import SummarizationPipeline
model_name = 'lincoln/mbart-mlsum-automatic-summarization'
loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
nlp = SummarizationPipeline(model=loaded_model, tokenizer=loaded_tokenizer)
nlp("""
« La veille de l’ouverture, je vais faire venir un coach pour les salariés qui reprendront le travail.
Cela va me coûter 300 euros, mais après des mois d’oisiveté obligatoire, la reprise n’est pas simple.
Certains sont au chômage partiel depuis mars 2020 », raconte Alain Fontaine, propriétaire du restaurant Le Mesturet,
dans le quartier de la Bourse, à Paris. Cette date d’ouverture, désormais, il la connaît. Emmanuel Macron a, en effet,
donné le feu vert pour un premier accueil des clients en terrasse, mercredi 19 mai. M. Fontaine imagine même faire venir un orchestre ce jour-là pour fêter l’événement.
Il lui reste toutefois à construire sa terrasse. Il pensait que les ouvriers passeraient samedi 1er mai pour l’installer, mais, finalement, le rendez-vous a été décalé.
Pour l’instant, le tas de bois est entreposé dans la salle de restaurant qui n’a plus accueilli de convives depuis le 29 octobre 2020,
quand le couperet de la fermeture administrative est tombé.M. Fontaine, président de l’Association française des maîtres restaurateurs,
ne manquera pas de concurrents prêts à profiter de ce premier temps de réouverture des bars et restaurants. Même si le couvre-feu limite le service à 21 heures.
D’autant que la Mairie de Paris vient d’annoncer le renouvellement des terrasses éphémères installées en 2020 et leur gratuité jusqu’à la fin de l’été.
""")
📚 詳細文檔
訓練過程
我們測試了兩種模型架構(T5和BART),輸入文本的長度為512或1024個標記。最終選擇了具有512個標記的BART模型。
該模型在Tesla V100上進行了2個週期(約700K篇文章)的訓練,訓練時長為32小時。
結果展示

我們將我們的模型(圖中的mbart-large-512-full
)與兩個參考模型進行了比較:
- MBERT:對應於MLSUM文章數據庫原始團隊訓練的模型性能。
- Barthez:另一個基於OrangeSum數據庫中新聞文章的模型。
可以看到,我們模型的新穎性得分(參見MLSUM論文)與這兩個參考模型仍不可比,更無法與人工生成的摘要相比。不過,生成的摘要總體質量較好。
🔧 技術細節
本模型基於facebook/mbart-large-50
進行微調,在模型架構選擇上經過了對T5和BART的測試,最終確定使用BART模型並將輸入文本長度設置為512個標記。訓練過程在特定硬件上進行了一定週期的訓練,以達到較好的摘要生成效果。
📄 許可證
本項目採用MIT許可證。
📖 引用
@article{scialom2020mlsum,
title={MLSUM: The Multilingual Summarization Corpus},
author={Thomas Scialom and Paul-Alexis Dray and Sylvain Lamprier and Benjamin Piwowarski and Jacopo Staiano},
year={2020},
eprint={2004.14900},
archivePrefix={arXiv},
primaryClass={cs.CL}
}