## 🚀 IT5 Smallによるウィキペディア要約 ✂️📑 🇮🇹
このリポジトリには、[IT5 Small](https://huggingface.co/gsarti/it5-small) モデルを [WITS](https://www.semanticscholar.org/paper/WITS%3A-Wikipedia-for-Italian-Text-Summarization-Casola-Lavelli/ad6c83122e721c7c0db4a40727dac3b4762cd2b1) データセットのウィキペディア要約タスクでファインチューニングしたチェックポイントが含まれています。これは、[Gabriele Sarti](https://gsarti.com) と [Malvina Nissim](https://malvinanissim.github.io) による論文 [IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation](https://arxiv.org/abs/2203.03759) の実験の一部として行われました。
他の公開資料の包括的な概要は、[gsarti/it5](https://github.com/gsarti/it5) リポジトリで提供されています。報告されたスコアと評価アプローチに関する追加の詳細は、論文を参照してください。
## 🚀 クイックスタート
モデルのチェックポイントは、Tensorflow、Pytorch、JAXで使用できます。パイプラインを使って直接利用することができます。
### 基本的な使用法
```python
from transformers import pipelines
wikisum = pipeline("summarization", model='it5/it5-small-wiki-summarization')
wikisum("Le dimensioni dell'isola sono di 8 km di lunghezza e di 3,2 km di larghezza. Si trova a 1,6 km a sud-est dell'isola di Renaud, dalla quale è separata dal passaggio Rodman. La sua altezza è di 100 m. Fu scoperta dall'esploratore e baleniere britannico John Biscoe nel 1832 e venne mappata durante una spedizione antartica francese realizzata nel primo decennio del XX secolo. Al comando della spedizione era Jean-Baptiste Charcot e il nome fu scelto per onorare l'esploratore e geografo francese Charles Rabot. === Rivendicazioni territoriali === * Secondo l'Argentina appartiene al dipartimento dell'Antartide Argentina nella provincia della Terra del Fuoco. * Secondo il Cile appartiene al comune antartico della provincia cilena antartica nella regione di Magallanes e dell'Antartico cileno. * Secondo il Regno Unito fa parte del territorio antartico britannico. Per il Trattato Antartico tali rivendicazioni sono sospese. Sull'isola è presente il rifugio Guillochon, sito storico antartico. ")
>>> [{"generated_text": "L' '''isola di Rabot''' si trova in prossimità dell'isola di Renaud, a sud dell'Argentina."}]
高度な使用法
オートクラスを使ってモデルをロードすることもできます。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-small-wiki-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-small-wiki-summarization")
もしあなたがこのモデルを研究で使用する場合は、以下のように我々の研究を引用してください。
@article{sarti-nissim-2022-it5,
title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
✨ 主な機能
- 言語:イタリア語
- ライセンス:Apache-2.0
- データセット:WITS
- タグ:イタリア語、シーケンス-to-シーケンス、ウィキペディア、要約、WITS
- 評価指標:ROUGE、BERTScore
モデルの性能
Property |
Details |
モデル名 |
it5-small-wiki-summarization |
タスク |
Wikipedia Summarization |
データセット |
WITS |
ROUGE-1 |
0.337 |
ROUGE-2 |
0.191 |
ROUGE-L |
0.306 |
BERTScore |
0.504 |
BERTScoreのパラメータ |
model_type: "dbmdz/bert-base-italian-xxl-uncased", lang: "it", num_layers: 10, rescale_with_baseline: True, baseline_path: "bertscore_baseline_ita.tsv" |
CO2排出量
- 排出量:8g
- 排出源:Google Cloud Platform Carbon Footprint
- トレーニングタイプ:ファインチューニング
- 地理的な位置:Eemshaven, Netherlands, Europe
- 使用ハードウェア:1 TPU v3 - 8 VM
サムネイル

📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。
以上のREADMEは、指定されたイタリア語のREADMEを日本語に翻訳し、指定された美化規範に基づいて整形したものです。