🚀 IT5 Small for Wikipedia Summarization ✂️📑 🇮🇹
This repository holds the checkpoint for the IT5 Small model. It has been fine - tuned for Wikipedia summarization on the WITS dataset. This is part of the experiments in the paper IT5: Large - scale Text - to - text Pretraining for Italian Language Understanding and Generation by Gabriele Sarti and Malvina Nissim.
A detailed overview of other released materials can be found in the gsarti/it5 repository. For more details about the reported scores and the evaluation approach, refer to the paper.
🚀 Quick Start
✨ Features
- Multilingual Support: Supports Italian text summarization.
- Multiple Metrics: Evaluated using ROUGE and BERTScore.
- Fine - Tuned Model: Fine - tuned on the WITS dataset for Wikipedia summarization.
📦 Installation
The README does not provide specific installation steps, so this section is skipped.
💻 Usage Examples
Basic Usage
from transformers import pipelines
wikisum = pipeline("summarization", model='it5/it5-small-wiki-summarization')
wikisum("Le dimensioni dell'isola sono di 8 km di lunghezza e di 3,2 km di larghezza. Si trova a 1,6 km a sud-est dell'isola di Renaud, dalla quale è separata dal passaggio Rodman. La sua altezza è di 100 m. Fu scoperta dall'esploratore e baleniere britannico John Biscoe nel 1832 e venne mappata durante una spedizione antartica francese realizzata nel primo decennio del XX secolo. Al comando della spedizione era Jean-Baptiste Charcot e il nome fu scelto per onorare l'esploratore e geografo francese Charles Rabot. === Rivendicazioni territoriali === * Secondo l'Argentina appartiene al dipartimento dell'Antartide Argentina nella provincia della Terra del Fuoco. * Secondo il Cile appartiene al comune antartico della provincia cilena antartica nella regione di Magallanes e dell'Antartico cileno. * Secondo il Regno Unito fa parte del territorio antartico britannico. Per il Trattato Antartico tali rivendicazioni sono sospese. Sull'isola è presente il rifugio Guillochon, sito storico antartico. ")
>>> [{"generated_text": "L' '''isola di Rabot''' si trova in prossimità dell'isola di Renaud, a sud dell'Argentina."}]
Advanced Usage
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-small-wiki-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-small-wiki-summarization")
📚 Documentation
- Metrics: The model is evaluated using ROUGE (ROUGE1, ROUGE2, ROUGEL) and BERTScore.
- Model Index: The model is named
it5-small-wiki-summarization
and has specific results on the WITS dataset for Wikipedia summarization.
Property |
Details |
Model Type |
it5-small-wiki-summarization |
Training Data |
WITS |
Metrics |
ROUGE (ROUGE1, ROUGE2, ROUGEL), BERTScore |
🔧 Technical Details
The README does not provide in - depth technical details, so this section is skipped.
📄 License
The model is licensed under the Apache - 2.0 license.
If you use this model in your research, please cite our work as:
@article{sarti-nissim-2022-it5,
title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
⚙️ CO2 Emissions
- Emissions: 8g
- Source: Google Cloud Platform Carbon Footprint
- Training Type: Fine - tuning
- Geographical Location: Eemshaven, Netherlands, Europe
- Hardware Used: 1 TPU v3 - 8 VM
🖼️ Thumbnail
