🚀 IT5 Large for News Summarization ✂️🗞️ 🇮🇹
This repository holds the checkpoint for the IT5 Large model. It has been fine - tuned for news summarization on the Fanpage and Il Post corpora. This is part of the experiments in the paper IT5: Large - scale Text - to - text Pretraining for Italian Language Understanding and Generation by Gabriele Sarti and Malvina Nissim.
You can find a comprehensive overview of other released materials in the gsarti/it5 repository. For more details about the reported scores and the evaluation approach, refer to the paper.
🚀 Quick Start
Model checkpoints are available for use in Tensorflow, Pytorch, and JAX. You can use them directly with pipelines or load them using autoclasses.
✨ Features
- Fine - tuned on Italian news corpora for news summarization.
- Available for multiple deep - learning frameworks.
📦 Installation
No specific installation steps are provided in the original document, so this section is skipped.
💻 Usage Examples
Basic Usage
from transformers import pipelines
newsum = pipeline("summarization", model='it5/it5-large-news-summarization')
newsum("Dal 31 maggio è infine partita la piattaforma ITsART, a più di un anno da quando – durante il primo lockdown – il ministro della Cultura Dario Franceschini ne aveva parlato come di «una sorta di Netflix della cultura», pensata per «offrire a tutto il mondo la cultura italiana a pagamento». È presto per dare giudizi definitivi sulla piattaforma, e di certo sarà difficile farlo anche più avanti senza numeri precisi. Al momento, l’unica cosa che si può fare è guardare com’è fatto il sito, contare quanti contenuti ci sono (circa 700 “titoli”, tra film, documentari, spettacoli teatrali e musicali e altri eventi) e provare a dare un giudizio sul loro valore e sulla loro varietà. Intanto, una cosa notata da più parti è che diversi contenuti di ITsART sono a pagamento sulla piattaforma sebbene altrove, per esempio su RaiPlay, siano invece disponibili gratuitamente.")
>>> [{"generated_text": "ITsART, la Netflix della cultura italiana, parte da maggio. Film, documentari, spettacoli teatrali e musicali disponibili sul nuovo sito a pagamento."}]
Advanced Usage
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-large-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-large-news-summarization")
📚 Documentation
If you use this model in your research, please cite our work as:
@article{sarti-nissim-2022-it5,
title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
📄 License
The model is released under the Apache - 2.0 license.
Property |
Details |
Model Type |
IT5 Large fine - tuned for news summarization |
Training Data |
Fanpage and Il Post corpora |
Metrics |
Rouge1, Rouge2, RougeL, BERTScore |
CO2 Emissions |
51g (source: Google Cloud Platform Carbon Footprint, fine - tuning on 1 TPU v3 - 8 VM in Eemshaven, Netherlands, Europe) |
Thumbnail |
https://gsarti.com/publication/it5/featured.png |
Tags |
italian, sequence - to - sequence, fanpage, ilpost, summarization |