GreekBART开源模型 - 免费部署助力希腊语文本摘要生成等任务

首页

Greekbart

由 dascim 开发

GreekBART是基于BART的希腊语序列到序列预训练模型，特别适合生成任务如摘要生成。

大型语言模型

Transformers

其他开源协议:MIT #希腊语摘要生成 #新闻标题生成 #情感分类

下载量 34

发布时间 : 10/14/2024

模型简介

首个预训练的希腊语序列到序列模型，通过重构被破坏的输入句子进行预训练，使用了76.9GB的希腊语原始文本语料库。

模型特点

希腊语专用

专门针对希腊语进行预训练和优化，填补了希腊语序列到序列模型的空白。

多任务支持

提供基础模型和三个微调版本，分别支持摘要生成、标题生成和情感分类任务。

大规模预训练

使用76.9GB希腊语原始文本进行预训练，具有强大的语言理解能力。

模型能力

文本摘要生成

新闻标题生成

情感分类

掩码预测

使用案例

新闻媒体

新闻摘要生成

根据希腊新闻文章自动生成简洁摘要

示例结果显示能准确提取关键信息

新闻标题生成

为新闻内容自动生成吸引人的标题

示例标题'帕特雷：护士就乔治娜入院作证'

情感分析

评论情感分类

对希腊语文本进行正面/负面情感分类

示例准确识别'希腊文明是最丰富且广受认可的文明之一。'为正面评价

🚀 GreekBART：首个预训练的希腊语序列到序列模型

GreekBART是基于BART的希腊语序列到序列预训练模型。它通过学习重构受损的输入句子进行预训练，使用了76.9GB的希腊语原始文本语料库。与现有的基于BERT的希腊语模型（GreekBERT）不同，GreekBART特别适合生成任务（如摘要生成），因为它不仅编码器经过预训练，解码器也经过预训练。除了从头开始在重构任务上预训练的基础GreekBART外，我们还在三个任务上对其进行了微调：greekbart-news24-abstract 可根据希腊语新闻文章生成摘要，greekbart-news24-title 可根据希腊语新闻文章生成标题，greekbart-sentiment-classification 则在二元情感分类任务上进行了微调。

模型	架构	层数	参数数量
GreekBART	BASE	12	165M
GreekBART Abstract	BASE	12	165M
GreekBART Title	BASE	12	165M
GreekBART Sentiment Classification	BASE	12	165M

论文链接：https://arxiv.org/pdf/2304.00869 GitHub链接：https://github.com/iakovosevdaimon/GreekBART

🚀 快速开始

以下是GreekBART在不同任务上的使用示例。

💻 使用示例

基础用法

掩码预测

from transformers import pipeline 

greekbart_fill_mask  = pipeline("fill-mask", model="dascim/greekbart", tokenizer="dascim/greekbart")
results = greekbart_fill_mask("Η πρωτεύουσα της Ελλάδας είναι η <mask>")

results[0]
# {'score': 0.597200870513916, 'token': 7062, 'token_str': 'Αθήνα', 'sequence': 'Η πρωτεύουσα της Ελλάδας είναι η Αθήνα'},

摘要生成

text_sentence = 'Στην κατάθεση νοσηλεύτριας του Καραμανδάνειου Νοσοκομείου Πάτρας Παναγιώτας Τσεντούρου, η οποία εργαζόταν όταν εισήχθη στις 8 Απριλίου 2021 η Τζωρτζίνα, προχώρησε η διαδικασία ενώπιον του ΜΟΔ που δικάζει τη Ρούλα Πισπιρίγκου. Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση" και εξιστόρησε τα γεγονότα της ημέρας εισαγωγής και της επομένης που η ίδια είχε βάρδια στην παιδιατρική κλινική.'

from transformers import (
    AutoTokenizer,
    AutoModelForSeq2SeqLM
)

tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-news24-abstract")
model = AutoModelForSeq2SeqLM.from_pretrained("dascim/greekbart-news24-abstract")

input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')

model.eval()
predict = model.generate(input_ids, max_length=100)[0]


tokenizer.decode(predict, skip_special_tokens=True)
#'Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση".'

标题生成

text_sentence = 'Στην κατάθεση νοσηλεύτριας του Καραμανδάνειου Νοσοκομείου Πάτρας Παναγιώτας Τσεντούρου, η οποία εργαζόταν όταν εισήχθη στις 8 Απριλίου 2021 η Τζωρτζίνα, προχώρησε η διαδικασία ενώπιον του ΜΟΔ που δικάζει τη Ρούλα Πισπιρίγκου. Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση" και εξιστόρησε τα γεγονότα της ημέρας εισαγωγής και της επομένης που η ίδια είχε βάρδια στην παιδιατρική κλινική.'

from transformers import (
    AutoTokenizer,
    AutoModelForSeq2SeqLM
)

tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-news24-title")
model = AutoModelForSeq2SeqLM.from_pretrained("dascim/greekbart-news24-title")

input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')

model.eval()
predict = model.generate(input_ids, max_length=100)[0]


tokenizer.decode(predict, skip_special_tokens=True)
# 'Πάτρα: Κατάθεση νοσηλεύτριας για την εισαγωγή της Τζωρτζίνας στο νοσοκομείο'

情感预测

text_sentence = "Ο ελληνικός πολιτισμός είναι ένας από τους πιο πλούσιους και αναγνωρισμένους πολιτισμούς."

from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification
)

tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-sentiment-classification")
model = AutoModelForSequenceClassification.from_pretrained("dascim/greekbart-sentiment-classification")

input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')

model.eval()
predict = model(input_ids)[0]

print("negative" if predict.argmax(dim=-1).item()==1 else "positive") 
# positive

📄 许可证

本项目采用MIT许可证。

👨‍💻 作者

GreekBART由Iakovos Evdaimon、Hadi Abdine、Christos Xypolopoulos、Stamatis Outsios、Michalis Vazirgiannis和Giorgos Stamou在École Polytechnique进行训练和评估。

📚 引用

如果您使用了我们的工作，请引用以下文献：

@inproceedings{evdaimon-etal-2024-greekbart,
    title = "{G}reek{BART}: The First Pretrained {G}reek Sequence-to-Sequence Model",
    author = "Evdaimon, Iakovos  and
      Abdine, Hadi  and
      Xypolopoulos, Christos  and
      Outsios, Stamatis  and
      Vazirgiannis, Michalis  and
      Stamou, Giorgos",
    editor = "Calzolari, Nicoletta  and
      Kan, Min-Yen  and
      Hoste, Veronique  and
      Lenci, Alessandro  and
      Sakti, Sakriani  and
      Xue, Nianwen",
    booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
    month = may,
    year = "2024",
    address = "Torino, Italia",
    publisher = "ELRA and ICCL",
    url = "https://aclanthology.org/2024.lrec-main.700",
    pages = "7949--7962",
}