GreekBART開源模型 - 免費部署助力希臘語文本摘要生成等任務

首頁

Greekbart

由dascim開發

GreekBART是基於BART的希臘語序列到序列預訓練模型，特別適合生成任務如摘要生成。

大型語言模型

Transformers

其他開源協議:MIT #希臘語摘要生成 #新聞標題生成 #情感分類

下載量 34

發布時間 : 10/14/2024

模型概述

首個預訓練的希臘語序列到序列模型，通過重構被破壞的輸入句子進行預訓練，使用了76.9GB的希臘語原始文本語料庫。

模型特點

希臘語專用

專門針對希臘語進行預訓練和優化，填補了希臘語序列到序列模型的空白。

多任務支持

提供基礎模型和三個微調版本，分別支持摘要生成、標題生成和情感分類任務。

大規模預訓練

使用76.9GB希臘語原始文本進行預訓練，具有強大的語言理解能力。

模型能力

文本摘要生成

新聞標題生成

情感分類

掩碼預測

使用案例

新聞媒體

新聞摘要生成

根據希臘新聞文章自動生成簡潔摘要

示例結果顯示能準確提取關鍵信息

新聞標題生成

為新聞內容自動生成吸引人的標題

示例標題'帕特雷：護士就喬治娜入院作證'

情感分析

評論情感分類

對希臘語文本進行正面/負面情感分類

示例準確識別'希臘文明是最豐富且廣受認可的文明之一。'為正面評價

🚀 GreekBART：首個預訓練的希臘語序列到序列模型

GreekBART是基於BART的希臘語序列到序列預訓練模型。它通過學習重構受損的輸入句子進行預訓練，使用了76.9GB的希臘語原始文本語料庫。與現有的基於BERT的希臘語模型（GreekBERT）不同，GreekBART特別適合生成任務（如摘要生成），因為它不僅編碼器經過預訓練，解碼器也經過預訓練。除了從頭開始在重構任務上預訓練的基礎GreekBART外，我們還在三個任務上對其進行了微調：greekbart-news24-abstract 可根據希臘語新聞文章生成摘要，greekbart-news24-title 可根據希臘語新聞文章生成標題，greekbart-sentiment-classification 則在二元情感分類任務上進行了微調。

模型	架構	層數	參數數量
GreekBART	BASE	12	165M
GreekBART Abstract	BASE	12	165M
GreekBART Title	BASE	12	165M
GreekBART Sentiment Classification	BASE	12	165M

論文鏈接：https://arxiv.org/pdf/2304.00869 GitHub鏈接：https://github.com/iakovosevdaimon/GreekBART

🚀 快速開始

以下是GreekBART在不同任務上的使用示例。

💻 使用示例

基礎用法

掩碼預測

from transformers import pipeline 

greekbart_fill_mask  = pipeline("fill-mask", model="dascim/greekbart", tokenizer="dascim/greekbart")
results = greekbart_fill_mask("Η πρωτεύουσα της Ελλάδας είναι η <mask>")

results[0]
# {'score': 0.597200870513916, 'token': 7062, 'token_str': 'Αθήνα', 'sequence': 'Η πρωτεύουσα της Ελλάδας είναι η Αθήνα'},

摘要生成

text_sentence = 'Στην κατάθεση νοσηλεύτριας του Καραμανδάνειου Νοσοκομείου Πάτρας Παναγιώτας Τσεντούρου, η οποία εργαζόταν όταν εισήχθη στις 8 Απριλίου 2021 η Τζωρτζίνα, προχώρησε η διαδικασία ενώπιον του ΜΟΔ που δικάζει τη Ρούλα Πισπιρίγκου. Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση" και εξιστόρησε τα γεγονότα της ημέρας εισαγωγής και της επομένης που η ίδια είχε βάρδια στην παιδιατρική κλινική.'

from transformers import (
    AutoTokenizer,
    AutoModelForSeq2SeqLM
)

tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-news24-abstract")
model = AutoModelForSeq2SeqLM.from_pretrained("dascim/greekbart-news24-abstract")

input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')

model.eval()
predict = model.generate(input_ids, max_length=100)[0]


tokenizer.decode(predict, skip_special_tokens=True)
#'Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση".'

標題生成

text_sentence = 'Στην κατάθεση νοσηλεύτριας του Καραμανδάνειου Νοσοκομείου Πάτρας Παναγιώτας Τσεντούρου, η οποία εργαζόταν όταν εισήχθη στις 8 Απριλίου 2021 η Τζωρτζίνα, προχώρησε η διαδικασία ενώπιον του ΜΟΔ που δικάζει τη Ρούλα Πισπιρίγκου. Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση" και εξιστόρησε τα γεγονότα της ημέρας εισαγωγής και της επομένης που η ίδια είχε βάρδια στην παιδιατρική κλινική.'

from transformers import (
    AutoTokenizer,
    AutoModelForSeq2SeqLM
)

tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-news24-title")
model = AutoModelForSeq2SeqLM.from_pretrained("dascim/greekbart-news24-title")

input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')

model.eval()
predict = model.generate(input_ids, max_length=100)[0]


tokenizer.decode(predict, skip_special_tokens=True)
# 'Πάτρα: Κατάθεση νοσηλεύτριας για την εισαγωγή της Τζωρτζίνας στο νοσοκομείο'

情感預測

text_sentence = "Ο ελληνικός πολιτισμός είναι ένας από τους πιο πλούσιους και αναγνωρισμένους πολιτισμούς."

from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification
)

tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-sentiment-classification")
model = AutoModelForSequenceClassification.from_pretrained("dascim/greekbart-sentiment-classification")

input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')

model.eval()
predict = model(input_ids)[0]

print("negative" if predict.argmax(dim=-1).item()==1 else "positive") 
# positive

📄 許可證

本項目採用MIT許可證。

👨‍💻 作者

GreekBART由Iakovos Evdaimon、Hadi Abdine、Christos Xypolopoulos、Stamatis Outsios、Michalis Vazirgiannis和Giorgos Stamou在École Polytechnique進行訓練和評估。

📚 引用

如果您使用了我們的工作，請引用以下文獻：

@inproceedings{evdaimon-etal-2024-greekbart,
    title = "{G}reek{BART}: The First Pretrained {G}reek Sequence-to-Sequence Model",
    author = "Evdaimon, Iakovos  and
      Abdine, Hadi  and
      Xypolopoulos, Christos  and
      Outsios, Stamatis  and
      Vazirgiannis, Michalis  and
      Stamou, Giorgos",
    editor = "Calzolari, Nicoletta  and
      Kan, Min-Yen  and
      Hoste, Veronique  and
      Lenci, Alessandro  and
      Sakti, Sakriani  and
      Xue, Nianwen",
    booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
    month = may,
    year = "2024",
    address = "Torino, Italia",
    publisher = "ELRA and ICCL",
    url = "https://aclanthology.org/2024.lrec-main.700",
    pages = "7949--7962",
}