it5-large-news-summarization开源模型 - 免费部署实现意大利语新闻摘要生成

首页

It5 Large News Summarization

由 gsarti 开发

基于IT5大模型在Fanpage和Il Post语料库上微调的意大利语新闻摘要模型

文本生成其他开源协议:Apache-2.0 #意大利语摘要 #新闻浓缩 #序列到序列

下载量 47

发布时间 : 3/2/2022

模型简介

该模型专门用于意大利语新闻文本的自动摘要生成，能够将长新闻文章压缩为简洁的摘要。

模型特点

意大利语优化

专门针对意大利语新闻文本进行优化

高质量摘要

在Fanpage和Il Post数据集上微调，生成质量较高的新闻摘要

多框架支持

支持Tensorflow、Pytorch和JAX框架

模型能力

意大利语文本理解

新闻摘要生成

长文本压缩

使用案例

新闻媒体

新闻摘要生成

为新闻网站自动生成文章摘要

Rouge1分数达0.249-0.253

内容分析

关键信息提取

从长新闻中提取关键信息

🚀 IT5大模型用于新闻摘要提取 ✂️🗞️ 🇮🇹

本仓库包含 IT5 Large 模型的检查点，该模型在 Fanpage 和 Il Post 语料库上针对新闻摘要提取任务进行了微调。这些实验是论文 IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation 的一部分，论文作者为 Gabriele Sarti 和 Malvina Nissim。

gsarti/it5 仓库中提供了其他已发布材料的全面概述。有关报告分数和评估方法的更多详细信息，请参考论文。

🚀 快速开始

模型使用

模型检查点可用于 Tensorflow、Pytorch 和 JAX。可以直接通过管道使用，示例如下：

from transformers import pipelines

newsum = pipeline("summarization", model='it5/it5-large-news-summarization')
newsum("Dal 31 maggio è infine partita la piattaforma ITsART, a più di un anno da quando – durante il primo lockdown – il ministro della Cultura Dario Franceschini ne aveva parlato come di «una sorta di Netflix della cultura», pensata per «offrire a tutto il mondo la cultura italiana a pagamento». È presto per dare giudizi definitivi sulla piattaforma, e di certo sarà difficile farlo anche più avanti senza numeri precisi. Al momento, l’unica cosa che si può fare è guardare com’è fatto il sito, contare quanti contenuti ci sono (circa 700 “titoli”, tra film, documentari, spettacoli teatrali e musicali e altri eventi) e provare a dare un giudizio sul loro valore e sulla loro varietà. Intanto, una cosa notata da più parti è che diversi contenuti di ITsART sono a pagamento sulla piattaforma sebbene altrove, per esempio su RaiPlay, siano invece disponibili gratuitamente.")
>>> [{"generated_text": "ITsART, la Netflix della cultura italiana, parte da maggio. Film, documentari, spettacoli teatrali e musicali disponibili sul nuovo sito a pagamento."}]

也可以使用自动类加载：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("it5/it5-large-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-large-news-summarization")

引用说明

如果您在研究中使用了此模型，请按以下格式引用我们的工作：

@article{sarti-nissim-2022-it5,
    title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
    author={Sarti, Gabriele and Nissim, Malvina},
    journal={ArXiv preprint 2203.03759},
    url={https://arxiv.org/abs/2203.03759},
    year={2022},
	month={mar}
}

📄 许可证

本项目采用 Apache-2.0 许可证。

📋 模型信息

属性	详情
支持语言	意大利语
模型类型	序列到序列
适用场景	新闻摘要提取、Fanpage、Il Post 相关内容处理
训练数据集	ARTeLab/fanpage、ARTeLab/ilpost
评估指标	ROUGE、BERTScore