🚀 IT5基础新闻摘要模型 ✂️🗞️ 🇮🇹
本仓库包含 IT5 Base 模型在新闻摘要任务上的微调检查点。该模型基于 Fanpage 和 Il Post 语料库进行微调,是 Gabriele Sarti 和 Malvina Nissim 发表的论文 IT5: 大规模意大利语理解与生成的文本到文本预训练 实验的一部分。
gsarti/it5 仓库提供了其他已发布材料的全面概述。有关报告分数和评估方法的更多详细信息,请参考该论文。
🚀 快速开始
模型使用
模型检查点可在 Tensorflow、Pytorch 和 JAX 中使用。可以直接通过管道使用,示例如下:
基础用法
from transformers import pipelines
newsum = pipeline("summarization", model='it5/it5-base-news-summarization')
newsum("Dal 31 maggio è infine partita la piattaforma ITsART, a più di un anno da quando – durante il primo lockdown – il ministro della Cultura Dario Franceschini ne aveva parlato come di «una sorta di Netflix della cultura», pensata per «offrire a tutto il mondo la cultura italiana a pagamento». È presto per dare giudizi definitivi sulla piattaforma, e di certo sarà difficile farlo anche più avanti senza numeri precisi. Al momento, l’unica cosa che si può fare è guardare com’è fatto il sito, contare quanti contenuti ci sono (circa 700 “titoli”, tra film, documentari, spettacoli teatrali e musicali e altri eventi) e provare a dare un giudizio sul loro valore e sulla loro varietà. Intanto, una cosa notata da più parti è che diversi contenuti di ITsART sono a pagamento sulla piattaforma sebbene altrove, per esempio su RaiPlay, siano invece disponibili gratuitamente.")
>>> [{"generated_text": "ITsART, la Netflix della cultura italiana, parte da maggio. Film, documentari, spettacoli teatrali e musicali disponibili sul nuovo sito a pagamento."}]
也可以使用自动类加载模型:
高级用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-base-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-base-news-summarization")
引用说明
如果您在研究中使用了此模型,请按以下格式引用我们的工作:
@article{sarti-nissim-2022-it5,
title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
📄 许可证
本项目采用 Apache-2.0 许可证。
📋 模型信息
属性 |
详情 |
模型类型 |
用于意大利语新闻摘要的 IT5 基础模型 |
训练数据 |
ARTeLab/fanpage、ARTeLab/ilpost |
标签 |
意大利语、序列到序列、粉丝页面、Il Post、摘要 |