🚀 自動ニュース記事要約モデル
このモデルは、facebook/mbart-large-50
をベースに、MLSUMデータセットのニュース記事を使ってファインチューニングされています。記事の見出しが良い要約になるという仮定のもと、学習が行われました。
✨ 主な機能
- ニュース記事の自動要約が可能です。
- モデルはMLSUMデータセットでファインチューニングされているため、多様なニュース記事に対応しています。
📦 インストール
このモデルはHugging FaceのTransformersライブラリを使用しています。以下のコマンドで必要なライブラリをインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from transformers import SummarizationPipeline
model_name = 'lincoln/mbart-mlsum-automatic-summarization'
loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
nlp = SummarizationPipeline(model=loaded_model, tokenizer=loaded_tokenizer)
nlp("""
« La veille de l’ouverture, je vais faire venir un coach pour les salariés qui reprendront le travail.
Cela va me coûter 300 euros, mais après des mois d’oisiveté obligatoire, la reprise n’est pas simple.
Certains sont au chômage partiel depuis mars 2020 », raconte Alain Fontaine, propriétaire du restaurant Le Mesturet,
dans le quartier de la Bourse, à Paris. Cette date d’ouverture, désormais, il la connaît. Emmanuel Macron a, en effet,
donné le feu vert pour un premier accueil des clients en terrasse, mercredi 19 mai. M. Fontaine imagine même faire venir un orchestre ce jour-là pour fêter l’événement.
Il lui reste toutefois à construire sa terrasse. Il pensait que les ouvriers passeraient samedi 1er mai pour l’installer, mais, finalement, le rendez-vous a été décalé.
Pour l’instant, le tas de bois est entreposé dans la salle de restaurant qui n’a plus accueilli de convives depuis le 29 octobre 2020,
quand le couperet de la fermeture administrative est tombé.M. Fontaine, président de l’Association française des maîtres restaurateurs,
ne manquera pas de concurrents prêts à profiter de ce premier temps de réouverture des bars et restaurants. Même si le couvre-feu limite le service à 21 heures.
D’autant que la Mairie de Paris vient d’annoncer le renouvellement des terrasses éphémères installées en 2020 et leur gratuité jusqu’à la fin de l’été.
""")
📚 ドキュメント
学習
2種類のモデルアーキテクチャ(T5とBART)を、入力テキストのトークン数を512または1024に設定してテストしました。最終的には、512トークンのBARTモデルが選ばれました。
このモデルは、Tesla V100上で2エポック(約70万件の記事)、約32時間の学習を行いました。
結果

このグラフでは、私たちのモデル (mbart-large-512-full
) を2つの基準モデルと比較しています。
- MBERT:MLSUMデータセットを作成したチームによって学習されたモデルの性能を表します。
- Barthez:OrangeSumデータセットのニュース記事を使った別のモデルです。
グラフからわかるように、私たちのモデルの新奇性スコア(MLSUM論文を参照)は、これら2つの基準モデルや人間による要約と比べるとまだ劣っていますが、生成された要約の品質は全体的に良好です。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
📚 引用
@article{scialom2020mlsum,
title={MLSUM: The Multilingual Summarization Corpus},
author={Thomas Scialom and Paul-Alexis Dray and Sylvain Lamprier and Benjamin Piwowarski and Jacopo Staiano},
year={2020},
eprint={2004.14900},
archivePrefix={arXiv},
primaryClass={cs.CL}
}