It5 Base Wiki Summarization
基於WITS數據集微調的意大利語維基百科摘要模型,支持從意大利語文本生成簡潔摘要。
下載量 18
發布時間 : 3/2/2022
模型概述
該模型專門用於意大利語維基百科內容的摘要生成,基於IT5基礎架構在WITS數據集上微調而成。
模型特點
意大利語優化
專門針對意大利語文本進行優化,適合處理維基百科風格的正式文本
高質量摘要
在WITS數據集上達到Rouge-1 0.369的評分表現
多框架支持
支持Tensorflow、Pytorch和JAX多種深度學習框架
模型能力
意大利語文本理解
文本摘要生成
維基百科內容處理
使用案例
內容摘要
維基百科條目摘要
為長篇維基百科條目生成簡潔摘要
生成符合維基百科風格的摘要文本
學術文獻摘要
對意大利語學術文獻進行內容提煉
🚀 IT5基礎版維基百科摘要生成模型
本項目的IT5基礎版模型,在WITS數據集上進行微調,用於意大利語維基百科文章的摘要生成。該模型由Gabriele Sarti和Malvina Nissim開發,相關研究論文為IT5: 大規模文本到文本預訓練用於意大利語理解與生成。
更多發佈材料的綜合概述可在gsarti/it5倉庫中查看。如需瞭解報告分數和評估方法的更多細節,請參考上述論文。
🚀 快速開始
模型使用
模型檢查點支持在TensorFlow、PyTorch和JAX中使用。可以直接通過管道使用,示例如下:
from transformers import pipelines
hg = pipeline("text2text-generation", model='it5/it5-base-wiki-summarization')
hg("Le dimensioni dell'isola sono di 8 km di lunghezza e di 3,2 km di larghezza. Si trova a 1,6 km a sud-est dell'isola di Renaud, dalla quale è separata dal passaggio Rodman. La sua altezza è di 100 m. Fu scoperta dall'esploratore e baleniere britannico John Biscoe nel 1832 e venne mappata durante una spedizione antartica francese realizzata nel primo decennio del XX secolo. Al comando della spedizione era Jean-Baptiste Charcot e il nome fu scelto per onorare l'esploratore e geografo francese Charles Rabot. === Rivendicazioni territoriali === * Secondo l'Argentina appartiene al dipartimento dell'Antartide Argentina nella provincia della Terra del Fuoco. * Secondo il Cile appartiene al comune antartico della provincia cilena antartica nella regione di Magallanes e dell'Antartico cileno. * Secondo il Regno Unito fa parte del territorio antartico britannico. Per il Trattato Antartico tali rivendicazioni sono sospese. Sull'isola è presente il rifugio Guillochon, sito storico antartico. "
- text: "Vanni ha la sua prima mostra personale nel 1948, alla Galleria Margherita di Roma. Nel 1949 vince una borsa di studio che lo porterà a studiare ad Amsterdam sotto la guida del pittore neoplastico Friedrich Vordemberge-Gildewart. Nel 1952 vince una Fulbright Scholarship che lo porterà a studiare in America, alla Yale University, sotto la guida di Josef Albers. Dal 1953 al 1960 si stabilisce a Parigi, dove illustra alcuni libri per bambini che in seguito vinceranno il premio del Club des Editeurs. Nel 1954 lavora come consulente del colore per il documentario su Picasso di Luciano Emmer, e nel 1955 comincia la sua lunga collaborazione con la Galleria Schneider, affiancando artisti come Corrado Cagli. Dal 1969 al 1974 lavora su dei bassorilievi in vetro resina sui quali vengono proiettati dei film astratti da lui creati, per creare dei quadri che si trasformino continuamente nel tempo. Nel 1979 lascia Roma per stabilirsi a New York, dove alla carriera di pittore affiancherà quella di professore per la prestigiosa Cooper Union School of Art, dove insegnerà ininterrottamente dal 1984 al 2014. L'opera pittorica di Vanni è segnata da una visione estremamente personale, lontana dalle correnti e dai movimenti che hanno caratterizzato la seconda metà del XX secolo. Memore delle lunghe conversazioni avute da Vanni nella sua primissima gioventù, con il filosofo e pittore futurista Alberto Bragaglia, le sue opere sono contrassegnate da un “eclettismo” formale programmatico, alla base del quale resta costante una conoscenza profonda delle molteplici tecniche artistiche utilizzate (tra cui il mosaico, l’affresco e la tempera ad uovo). Pur esprimendosi per lo più in cicli di opere dove l’astrazione formale è la principale componente figurativa, sono da sottolineare alcune opere dove Vanni ha dato prova di una importante padronanza dell’arte figurativa. Importanti e numerose sono le sue realizzazioni anche nel campo dell’illustrazione. Sue sono le illustrazioni per la novella ''Agostino'' di Alberto Moravia, per il libro ''Love'' di Lowell A. Siff e delle ''Contes de Cristal'' di Alice Coléno. Ha tenuto mostre personali in Italia e all’estero ed esposto in mostre collettive di rappresentanza italiana nei musei e nelle gallerie di ogni parte del mondo.")
>>> [{"generated_text": "L' '''isola di Rabot''' si trova in prossimità dell'isola di Renaud, a sud dell'Argentina."}]
也可以使用自動類加載模型:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-base-wiki-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-base-wiki-summarization")
引用方式
如果您在研究中使用了該模型,請按以下格式引用我們的工作:
@article{sarti-nissim-2022-it5,
title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
✨ 主要特性
- 語言支持:專注於意大利語,適用於意大利語維基百科文章的摘要生成。
- 評估指標:使用ROUGE和BERTScore等指標進行評估,確保摘要質量。
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型名稱 | it5-base-wiki-summarization |
任務類型 | 維基百科摘要生成 |
數據集 | WITS |
評估指標 | ROUGE-1、ROUGE-2、ROUGE-L、BERTScore |
評估結果
評估指標 | 值 |
---|---|
Test Rouge1 | 0.369 |
Test Rouge2 | 0.217 |
Test RougeL | 0.333 |
Test BERTScore | 0.530 |
BERTScore參數
參數 | 值 |
---|---|
model_type | dbmdz/bert-base-italian-xxl-uncased |
lang | it |
num_layers | 10 |
rescale_with_baseline | True |
baseline_path | bertscore_baseline_ita.tsv |
二氧化碳排放信息
- 排放量:17克
- 來源:Google Cloud Platform Carbon Footprint
- 訓練類型:微調
- 地理位置:荷蘭埃姆斯哈文,歐洲
- 使用硬件:1 TPU v3 - 8 VM
📄 許可證
本項目採用Apache-2.0許可證。
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98