summarization-hi-pegasus-hungarian开源模型 - 专为匈牙利语文本优化的摘要生成工具

首页

Summarization Hi Pegasus Hungarian

由 NYTK 开发

该模型是基于Pegasus架构微调的匈牙利语文本摘要生成模型，专为匈牙利语文本摘要任务优化

文本生成

Transformers

其他#匈牙利语摘要 #微调Pegasus #新闻摘要生成

下载量 18

发布时间 : 1/9/2023

模型简介

微调自Pegasus模型，用于生成匈牙利语文本的摘要，特别适用于新闻类内容的摘要生成

模型特点

匈牙利语优化

专门针对匈牙利语进行微调，使用559162段匈牙利语料库(hvg.hu + index.hu)训练

高性能

在HI指标上表现优于mBART和mT5等同类模型

专业领域适应

特别适合新闻类内容的摘要生成

模型能力

匈牙利语文本摘要生成

长文本压缩

关键信息提取

使用案例

新闻媒体

新闻摘要生成

自动生成新闻文章的简短摘要

ROUGE指标显示优于其他模型

内容管理

文档摘要

为长文档生成执行摘要

🚀 基于微调Pegasus模型的匈牙利语抽象文本摘要

本项目利用微调后的Pegasus模型实现匈牙利语的抽象文本摘要功能，为相关文本处理提供了高效的解决方案。如需了解更多详情，请访问我们的演示网站。

📦 安装指南

文档未提及安装步骤，跳过该章节。

✨ 主要特性

在Pegasus模型上进行微调。
在HI语料库（hvg.hu + index.hu）上进行微调，语料库包含559162个片段。

🔧 技术细节

限制条件

输入文本需进行分词处理（分词器：HuSpaCy）。
最大源文本长度为1024。
最大目标文本长度为256。
由于修改了词汇表，仅能使用PegasusTokenizerFast。

📈 实验结果

模型	HI
mBART	35.17/16.46/25.61
mT5	33.30/15.97/24.65
PEGASUS	30.36/13.11/21.57

💻 使用示例

基础用法

from transformers import PegasusForConditionalGeneration, PegasusTokenizerFast
model_name = 'NYTK/summarization-hi-pegasus-hungarian'

tokenizer = PegasusTokenizerFast.from_pretrained(model_name)
model = PegasusForConditionalGeneration.from_pretrained(model_name)
input_text = "A Tisza-parti város állatkertjében régóta tartanak szurikátákat ( Suricata suricatta ) , de tavaly tavaszig nem sikerült szaporítani őket , annak ellenére , hogy tágas ház és kifutó épült számukra - közölte Veprik Róbert igazgató . 2010-ben alakult ki az új - három Amszterdamból származó nőstényből és egy budapesti fiatal hímből álló - csapat , amely szaporodni kezdett . 2011-ben három , idén pedig egy utóddal örvendeztették meg a gondozókat és az állatbarátokat . A szurikáták utódai - tizenegy hetes vemhesség után - október és március között vakon és szőrtelenül jönnek a világra . A kicsinyek háromhetesen bújnak elő az üregből , és nevelésükben mindkét szülő részt vesz . A szurikátacsapatokban a család tagjai nagyon szoros kapcsolatban állnak egymással , viszont nagyon harciasan fellépnek az idegenekkel szemben , akár meg is ölhetik azt az állatot , amelyet betolakodónak tekintenek . Bár a Dél-Afrikában , a Kalahári sivatagban őshonos cibetmacskaféle ragadozókat a szegedi állatkertben természetes élőhelyükhöz képest kevesebb veszély fenyegeti , a vadasparki erdőben ragadozó madarak is élnek , amelyek akár zsákmányként is tekinthetnének a szurikátákra . A szegedi csapatnál azonban szigorú őrség van , mindig lesi valaki két lábra állva a veszélyforrásokat ."

tokenized_text = tokenizer(input_text, truncation=True, max_length=1024, return_tensors="pt")
summarization = model.generate(**tokenized_text, max_length=256)

print(tokenizer.batch_decode(summarization, skip_special_tokens=True))

📄 许可证

文档未提及许可证信息，跳过该章节。

📚 引用说明

如果您使用了此模型，请引用以下论文：

@inproceedings {yang-multi-sum,
    title = {{Többnyelvű modellek és PEGASUS finomhangolása magyar nyelvű absztraktív összefoglalás feladatára}},
	booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)},
	year = {2023},
	publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
	address = {Szeged, Magyarország},
	author = {Yang, Zijian Győző},
	pages = {381--393}
}