summarization-hi-pegasus-hungarian開源模型 - 專為匈牙利語文本優化的摘要生成工具

首頁

Summarization Hi Pegasus Hungarian

由NYTK開發

該模型是基於Pegasus架構微調的匈牙利語文本摘要生成模型，專為匈牙利語文本摘要任務優化

文本生成

Transformers

其他#匈牙利語摘要 #微調Pegasus #新聞摘要生成

下載量 18

發布時間 : 1/9/2023

模型概述

微調自Pegasus模型，用於生成匈牙利語文本的摘要，特別適用於新聞類內容的摘要生成

模型特點

匈牙利語優化

專門針對匈牙利語進行微調，使用559162段匈牙利語料庫(hvg.hu + index.hu)訓練

高性能

在HI指標上表現優於mBART和mT5等同類模型

專業領域適應

特別適合新聞類內容的摘要生成

模型能力

匈牙利語文本摘要生成

長文本壓縮

關鍵信息提取

使用案例

新聞媒體

新聞摘要生成

自動生成新聞文章的簡短摘要

ROUGE指標顯示優於其他模型

內容管理

文檔摘要

為長文檔生成執行摘要

🚀 基於微調Pegasus模型的匈牙利語抽象文本摘要

本項目利用微調後的Pegasus模型實現匈牙利語的抽象文本摘要功能，為相關文本處理提供了高效的解決方案。如需瞭解更多詳情，請訪問我們的演示網站。

📦 安裝指南

文檔未提及安裝步驟，跳過該章節。

✨ 主要特性

在Pegasus模型上進行微調。
在HI語料庫（hvg.hu + index.hu）上進行微調，語料庫包含559162個片段。

🔧 技術細節

限制條件

輸入文本需進行分詞處理（分詞器：HuSpaCy）。
最大源文本長度為1024。
最大目標文本長度為256。
由於修改了詞彙表，僅能使用PegasusTokenizerFast。

📈 實驗結果

模型	HI
mBART	35.17/16.46/25.61
mT5	33.30/15.97/24.65
PEGASUS	30.36/13.11/21.57

💻 使用示例

基礎用法

from transformers import PegasusForConditionalGeneration, PegasusTokenizerFast
model_name = 'NYTK/summarization-hi-pegasus-hungarian'

tokenizer = PegasusTokenizerFast.from_pretrained(model_name)
model = PegasusForConditionalGeneration.from_pretrained(model_name)
input_text = "A Tisza-parti város állatkertjében régóta tartanak szurikátákat ( Suricata suricatta ) , de tavaly tavaszig nem sikerült szaporítani őket , annak ellenére , hogy tágas ház és kifutó épült számukra - közölte Veprik Róbert igazgató . 2010-ben alakult ki az új - három Amszterdamból származó nőstényből és egy budapesti fiatal hímből álló - csapat , amely szaporodni kezdett . 2011-ben három , idén pedig egy utóddal örvendeztették meg a gondozókat és az állatbarátokat . A szurikáták utódai - tizenegy hetes vemhesség után - október és március között vakon és szőrtelenül jönnek a világra . A kicsinyek háromhetesen bújnak elő az üregből , és nevelésükben mindkét szülő részt vesz . A szurikátacsapatokban a család tagjai nagyon szoros kapcsolatban állnak egymással , viszont nagyon harciasan fellépnek az idegenekkel szemben , akár meg is ölhetik azt az állatot , amelyet betolakodónak tekintenek . Bár a Dél-Afrikában , a Kalahári sivatagban őshonos cibetmacskaféle ragadozókat a szegedi állatkertben természetes élőhelyükhöz képest kevesebb veszély fenyegeti , a vadasparki erdőben ragadozó madarak is élnek , amelyek akár zsákmányként is tekinthetnének a szurikátákra . A szegedi csapatnál azonban szigorú őrség van , mindig lesi valaki két lábra állva a veszélyforrásokat ."

tokenized_text = tokenizer(input_text, truncation=True, max_length=1024, return_tensors="pt")
summarization = model.generate(**tokenized_text, max_length=256)

print(tokenizer.batch_decode(summarization, skip_special_tokens=True))

📄 許可證

文檔未提及許可證信息，跳過該章節。

📚 引用說明

如果您使用了此模型，請引用以下論文：

@inproceedings {yang-multi-sum,
    title = {{Többnyelvű modellek és PEGASUS finomhangolása magyar nyelvű absztraktív összefoglalás feladatára}},
	booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)},
	year = {2023},
	publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
	address = {Szeged, Magyarország},
	author = {Yang, Zijian Győző},
	pages = {381--393}
}