🚀 基於微調Pegasus模型的匈牙利語抽象文本摘要
本項目利用微調後的Pegasus模型實現匈牙利語的抽象文本摘要功能,為相關文本處理提供了高效的解決方案。如需瞭解更多詳情,請訪問 我們的演示網站。
📦 安裝指南
文檔未提及安裝步驟,跳過該章節。
✨ 主要特性
- 在Pegasus模型上進行微調。
- 在HI語料庫(hvg.hu + index.hu)上進行微調,語料庫包含559162個片段。
🔧 技術細節
限制條件
- 輸入文本需進行分詞處理(分詞器:HuSpaCy)。
- 最大源文本長度為1024。
- 最大目標文本長度為256。
- 由於修改了詞彙表,僅能使用PegasusTokenizerFast。
📈 實驗結果
模型 |
HI |
mBART |
35.17/16.46/25.61 |
mT5 |
33.30/15.97/24.65 |
PEGASUS |
30.36/13.11/21.57 |
💻 使用示例
基礎用法
from transformers import PegasusForConditionalGeneration, PegasusTokenizerFast
model_name = 'NYTK/summarization-hi-pegasus-hungarian'
tokenizer = PegasusTokenizerFast.from_pretrained(model_name)
model = PegasusForConditionalGeneration.from_pretrained(model_name)
input_text = "A Tisza-parti város állatkertjében régóta tartanak szurikátákat ( Suricata suricatta ) , de tavaly tavaszig nem sikerült szaporítani őket , annak ellenére , hogy tágas ház és kifutó épült számukra - közölte Veprik Róbert igazgató . 2010-ben alakult ki az új - három Amszterdamból származó nőstényből és egy budapesti fiatal hímből álló - csapat , amely szaporodni kezdett . 2011-ben három , idén pedig egy utóddal örvendeztették meg a gondozókat és az állatbarátokat . A szurikáták utódai - tizenegy hetes vemhesség után - október és március között vakon és szőrtelenül jönnek a világra . A kicsinyek háromhetesen bújnak elő az üregből , és nevelésükben mindkét szülő részt vesz . A szurikátacsapatokban a család tagjai nagyon szoros kapcsolatban állnak egymással , viszont nagyon harciasan fellépnek az idegenekkel szemben , akár meg is ölhetik azt az állatot , amelyet betolakodónak tekintenek . Bár a Dél-Afrikában , a Kalahári sivatagban őshonos cibetmacskaféle ragadozókat a szegedi állatkertben természetes élőhelyükhöz képest kevesebb veszély fenyegeti , a vadasparki erdőben ragadozó madarak is élnek , amelyek akár zsákmányként is tekinthetnének a szurikátákra . A szegedi csapatnál azonban szigorú őrség van , mindig lesi valaki két lábra állva a veszélyforrásokat ."
tokenized_text = tokenizer(input_text, truncation=True, max_length=1024, return_tensors="pt")
summarization = model.generate(**tokenized_text, max_length=256)
print(tokenizer.batch_decode(summarization, skip_special_tokens=True))
📄 許可證
文檔未提及許可證信息,跳過該章節。
📚 引用說明
如果您使用了此模型,請引用以下論文:
@inproceedings {yang-multi-sum,
title = {{Többnyelvű modellek és PEGASUS finomhangolása magyar nyelvű absztraktív összefoglalás feladatára}},
booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)},
year = {2023},
publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
address = {Szeged, Magyarország},
author = {Yang, Zijian Győző},
pages = {381--393}
}