🚀 基于微调Pegasus模型的匈牙利语抽象文本摘要
本项目利用微调后的Pegasus模型实现匈牙利语的抽象文本摘要功能,为相关文本处理提供了高效的解决方案。如需了解更多详情,请访问 我们的演示网站。
📦 安装指南
文档未提及安装步骤,跳过该章节。
✨ 主要特性
- 在Pegasus模型上进行微调。
- 在HI语料库(hvg.hu + index.hu)上进行微调,语料库包含559162个片段。
🔧 技术细节
限制条件
- 输入文本需进行分词处理(分词器:HuSpaCy)。
- 最大源文本长度为1024。
- 最大目标文本长度为256。
- 由于修改了词汇表,仅能使用PegasusTokenizerFast。
📈 实验结果
模型 |
HI |
mBART |
35.17/16.46/25.61 |
mT5 |
33.30/15.97/24.65 |
PEGASUS |
30.36/13.11/21.57 |
💻 使用示例
基础用法
from transformers import PegasusForConditionalGeneration, PegasusTokenizerFast
model_name = 'NYTK/summarization-hi-pegasus-hungarian'
tokenizer = PegasusTokenizerFast.from_pretrained(model_name)
model = PegasusForConditionalGeneration.from_pretrained(model_name)
input_text = "A Tisza-parti város állatkertjében régóta tartanak szurikátákat ( Suricata suricatta ) , de tavaly tavaszig nem sikerült szaporítani őket , annak ellenére , hogy tágas ház és kifutó épült számukra - közölte Veprik Róbert igazgató . 2010-ben alakult ki az új - három Amszterdamból származó nőstényből és egy budapesti fiatal hímből álló - csapat , amely szaporodni kezdett . 2011-ben három , idén pedig egy utóddal örvendeztették meg a gondozókat és az állatbarátokat . A szurikáták utódai - tizenegy hetes vemhesség után - október és március között vakon és szőrtelenül jönnek a világra . A kicsinyek háromhetesen bújnak elő az üregből , és nevelésükben mindkét szülő részt vesz . A szurikátacsapatokban a család tagjai nagyon szoros kapcsolatban állnak egymással , viszont nagyon harciasan fellépnek az idegenekkel szemben , akár meg is ölhetik azt az állatot , amelyet betolakodónak tekintenek . Bár a Dél-Afrikában , a Kalahári sivatagban őshonos cibetmacskaféle ragadozókat a szegedi állatkertben természetes élőhelyükhöz képest kevesebb veszély fenyegeti , a vadasparki erdőben ragadozó madarak is élnek , amelyek akár zsákmányként is tekinthetnének a szurikátákra . A szegedi csapatnál azonban szigorú őrség van , mindig lesi valaki két lábra állva a veszélyforrásokat ."
tokenized_text = tokenizer(input_text, truncation=True, max_length=1024, return_tensors="pt")
summarization = model.generate(**tokenized_text, max_length=256)
print(tokenizer.batch_decode(summarization, skip_special_tokens=True))
📄 许可证
文档未提及许可证信息,跳过该章节。
📚 引用说明
如果您使用了此模型,请引用以下论文:
@inproceedings {yang-multi-sum,
title = {{Többnyelvű modellek és PEGASUS finomhangolása magyar nyelvű absztraktív összefoglalás feladatára}},
booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)},
year = {2023},
publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
address = {Szeged, Magyarország},
author = {Yang, Zijian Győző},
pages = {381--393}
}