It5 Base Wiki Summarization
基于WITS数据集微调的意大利语维基百科摘要模型,支持从意大利语文本生成简洁摘要。
下载量 18
发布时间 : 3/2/2022
模型简介
该模型专门用于意大利语维基百科内容的摘要生成,基于IT5基础架构在WITS数据集上微调而成。
模型特点
意大利语优化
专门针对意大利语文本进行优化,适合处理维基百科风格的正式文本
高质量摘要
在WITS数据集上达到Rouge-1 0.369的评分表现
多框架支持
支持Tensorflow、Pytorch和JAX多种深度学习框架
模型能力
意大利语文本理解
文本摘要生成
维基百科内容处理
使用案例
内容摘要
维基百科条目摘要
为长篇维基百科条目生成简洁摘要
生成符合维基百科风格的摘要文本
学术文献摘要
对意大利语学术文献进行内容提炼
🚀 IT5基础版维基百科摘要生成模型
本项目的IT5基础版模型,在WITS数据集上进行微调,用于意大利语维基百科文章的摘要生成。该模型由Gabriele Sarti和Malvina Nissim开发,相关研究论文为IT5: 大规模文本到文本预训练用于意大利语理解与生成。
更多发布材料的综合概述可在gsarti/it5仓库中查看。如需了解报告分数和评估方法的更多细节,请参考上述论文。
🚀 快速开始
模型使用
模型检查点支持在TensorFlow、PyTorch和JAX中使用。可以直接通过管道使用,示例如下:
from transformers import pipelines
hg = pipeline("text2text-generation", model='it5/it5-base-wiki-summarization')
hg("Le dimensioni dell'isola sono di 8 km di lunghezza e di 3,2 km di larghezza. Si trova a 1,6 km a sud-est dell'isola di Renaud, dalla quale è separata dal passaggio Rodman. La sua altezza è di 100 m. Fu scoperta dall'esploratore e baleniere britannico John Biscoe nel 1832 e venne mappata durante una spedizione antartica francese realizzata nel primo decennio del XX secolo. Al comando della spedizione era Jean-Baptiste Charcot e il nome fu scelto per onorare l'esploratore e geografo francese Charles Rabot. === Rivendicazioni territoriali === * Secondo l'Argentina appartiene al dipartimento dell'Antartide Argentina nella provincia della Terra del Fuoco. * Secondo il Cile appartiene al comune antartico della provincia cilena antartica nella regione di Magallanes e dell'Antartico cileno. * Secondo il Regno Unito fa parte del territorio antartico britannico. Per il Trattato Antartico tali rivendicazioni sono sospese. Sull'isola è presente il rifugio Guillochon, sito storico antartico. "
- text: "Vanni ha la sua prima mostra personale nel 1948, alla Galleria Margherita di Roma. Nel 1949 vince una borsa di studio che lo porterà a studiare ad Amsterdam sotto la guida del pittore neoplastico Friedrich Vordemberge-Gildewart. Nel 1952 vince una Fulbright Scholarship che lo porterà a studiare in America, alla Yale University, sotto la guida di Josef Albers. Dal 1953 al 1960 si stabilisce a Parigi, dove illustra alcuni libri per bambini che in seguito vinceranno il premio del Club des Editeurs. Nel 1954 lavora come consulente del colore per il documentario su Picasso di Luciano Emmer, e nel 1955 comincia la sua lunga collaborazione con la Galleria Schneider, affiancando artisti come Corrado Cagli. Dal 1969 al 1974 lavora su dei bassorilievi in vetro resina sui quali vengono proiettati dei film astratti da lui creati, per creare dei quadri che si trasformino continuamente nel tempo. Nel 1979 lascia Roma per stabilirsi a New York, dove alla carriera di pittore affiancherà quella di professore per la prestigiosa Cooper Union School of Art, dove insegnerà ininterrottamente dal 1984 al 2014. L'opera pittorica di Vanni è segnata da una visione estremamente personale, lontana dalle correnti e dai movimenti che hanno caratterizzato la seconda metà del XX secolo. Memore delle lunghe conversazioni avute da Vanni nella sua primissima gioventù, con il filosofo e pittore futurista Alberto Bragaglia, le sue opere sono contrassegnate da un “eclettismo” formale programmatico, alla base del quale resta costante una conoscenza profonda delle molteplici tecniche artistiche utilizzate (tra cui il mosaico, l’affresco e la tempera ad uovo). Pur esprimendosi per lo più in cicli di opere dove l’astrazione formale è la principale componente figurativa, sono da sottolineare alcune opere dove Vanni ha dato prova di una importante padronanza dell’arte figurativa. Importanti e numerose sono le sue realizzazioni anche nel campo dell’illustrazione. Sue sono le illustrazioni per la novella ''Agostino'' di Alberto Moravia, per il libro ''Love'' di Lowell A. Siff e delle ''Contes de Cristal'' di Alice Coléno. Ha tenuto mostre personali in Italia e all’estero ed esposto in mostre collettive di rappresentanza italiana nei musei e nelle gallerie di ogni parte del mondo.")
>>> [{"generated_text": "L' '''isola di Rabot''' si trova in prossimità dell'isola di Renaud, a sud dell'Argentina."}]
也可以使用自动类加载模型:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-base-wiki-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-base-wiki-summarization")
引用方式
如果您在研究中使用了该模型,请按以下格式引用我们的工作:
@article{sarti-nissim-2022-it5,
title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
✨ 主要特性
- 语言支持:专注于意大利语,适用于意大利语维基百科文章的摘要生成。
- 评估指标:使用ROUGE和BERTScore等指标进行评估,确保摘要质量。
📚 详细文档
模型信息
属性 | 详情 |
---|---|
模型名称 | it5-base-wiki-summarization |
任务类型 | 维基百科摘要生成 |
数据集 | WITS |
评估指标 | ROUGE-1、ROUGE-2、ROUGE-L、BERTScore |
评估结果
评估指标 | 值 |
---|---|
Test Rouge1 | 0.369 |
Test Rouge2 | 0.217 |
Test RougeL | 0.333 |
Test BERTScore | 0.530 |
BERTScore参数
参数 | 值 |
---|---|
model_type | dbmdz/bert-base-italian-xxl-uncased |
lang | it |
num_layers | 10 |
rescale_with_baseline | True |
baseline_path | bertscore_baseline_ita.tsv |
二氧化碳排放信息
- 排放量:17克
- 来源:Google Cloud Platform Carbon Footprint
- 训练类型:微调
- 地理位置:荷兰埃姆斯哈文,欧洲
- 使用硬件:1 TPU v3 - 8 VM
📄 许可证
本项目采用Apache-2.0许可证。
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98