🚀 GreekBART: 最初の事前学習済みギリシャ語シーケンス-to-シーケンスモデル
GreekBARTは、ギリシャ語のシーケンス-to-シーケンス事前学習済みモデルです。このモデルは、ギリシャ語の自然言語処理タスクにおいて高い性能を発揮し、生成タスクに特に適しています。
🚀 クイックスタート
GreekBARTは、BARTに基づくギリシャ語のシーケンス-to-シーケンス事前学習済みモデルです。このモデルは、破損した入力文を再構築することを学習することで事前学習されています。事前学習には、76.9GBのギリシャ語の生テキストコーパスが使用されています。
既存のBERTベースのギリシャ語モデル(GreekBERT)とは異なり、GreekBARTは、エンコーダだけでなくデコーダも事前学習されているため、生成タスク(要約生成など)に特に適しています。
再構築に関してゼロから事前学習されたベースのGreekBARTに加えて、以下の3つのタスクでも微調整されています。
greekbart-news24-abstract
:ギリシャ語のニュース記事を与えると要約を生成できます。
greekbart-news24-title
:ギリシャ語のニュース記事を与えるとタイトルを生成できます。
greekbart-sentiment-classification
:二値の感情分類タスクで微調整されています。
論文: https://arxiv.org/pdf/2304.00869
GitHub: https://github.com/iakovosevdaimon/GreekBART
✨ 主な機能
- マスク予測: 入力文中のマスクされたトークンを予測します。
- 要約生成: ギリシャ語のニュース記事から要約を生成します。
- タイトル生成: ギリシャ語のニュース記事からタイトルを生成します。
- 感情予測: ギリシャ語のテキストの感情を予測します。
💻 使用例
基本的な使用法
マスク予測
from transformers import pipeline
greekbart_fill_mask = pipeline("fill-mask", model="dascim/greekbart", tokenizer="dascim/greekbart")
results = greekbart_fill_mask("Η πρωτεύουσα της Ελλάδας είναι η <mask>")
results[0]
要約生成
text_sentence = 'Στην κατάθεση νοσηλεύτριας του Καραμανδάνειου Νοσοκομείου Πάτρας Παναγιώτας Τσεντούρου, η οποία εργαζόταν όταν εισήχθη στις 8 Απριλίου 2021 η Τζωρτζίνα, προχώρησε η διαδικασία ενώπιον του ΜΟΔ που δικάζει τη Ρούλα Πισπιρίγκου. Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση" και εξιστόρησε τα γεγονότα της ημέρας εισαγωγής και της επομένης που η ίδια είχε βάρδια στην παιδιατρική κλινική.'
from transformers import (
AutoTokenizer,
AutoModelForSeq2SeqLM
)
tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-news24-abstract")
model = AutoModelForSeq2SeqLM.from_pretrained("dascim/greekbart-news24-abstract")
input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')
model.eval()
predict = model.generate(input_ids, max_length=100)[0]
tokenizer.decode(predict, skip_special_tokens=True)
タイトル生成
text_sentence = 'Στην κατάθεση νοσηλεύτριας του Καραμανδάνειου Νοσοκομείου Πάτρας Παναγιώτας Τσεντούρου, η οποία εργαζόταν όταν εισήχθη στις 8 Απριλίου 2021 η Τζωρτζίνα, προχώρησε η διαδικασία ενώπιον του ΜΟΔ που δικάζει τη Ρούλα Πισπιρίγκου. Η νοσηλεύτρια κατέθεσε πως κατά την εισαγωγή του παιδιού "μου ανέφεραν πως είναι ένα παιδάκι που έχει χάσει τα αδελφάκια του και ότι είναι ιδιαίτερη περίπτωση" και εξιστόρησε τα γεγονότα της ημέρας εισαγωγής και της επομένης που η ίδια είχε βάρδια στην παιδιατρική κλινική.'
from transformers import (
AutoTokenizer,
AutoModelForSeq2SeqLM
)
tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-news24-title")
model = AutoModelForSeq2SeqLM.from_pretrained("dascim/greekbart-news24-title")
input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')
model.eval()
predict = model.generate(input_ids, max_length=100)[0]
tokenizer.decode(predict, skip_special_tokens=True)
感情予測
text_sentence = "Ο ελληνικός πολιτισμός είναι ένας από τους πιο πλούσιους και αναγνωρισμένους πολιτισμούς."
from transformers import (
AutoTokenizer,
AutoModelForSequenceClassification
)
tokenizer = AutoTokenizer.from_pretrained("dascim/greekbart-sentiment-classification")
model = AutoModelForSequenceClassification.from_pretrained("dascim/greekbart-sentiment-classification")
input_ids = tokenizer.encode(text_sentence, add_special_tokens=True, return_tensors='pt')
model.eval()
predict = model(input_ids)[0]
print("negative" if predict.argmax(dim=-1).item()==1 else "positive")
📚 ドキュメント
著者
GreekBARTは、École Polytechniqueにおいて、Iakovos Evdaimon、Hadi Abdine、Christos Xypolopoulos、Stamatis Outsios、Michalis Vazirgiannis、およびGiorgos Stamouによって学習および評価されました。
引用
このモデルを使用する場合は、以下のように引用してください。
@inproceedings{evdaimon-etal-2024-greekbart,
title = "{G}reek{BART}: The First Pretrained {G}reek Sequence-to-Sequence Model",
author = "Evdaimon, Iakovos and
Abdine, Hadi and
Xypolopoulos, Christos and
Outsios, Stamatis and
Vazirgiannis, Michalis and
Stamou, Giorgos",
editor = "Calzolari, Nicoletta and
Kan, Min-Yen and
Hoste, Veronique and
Lenci, Alessandro and
Sakti, Sakriani and
Xue, Nianwen",
booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
month = may,
year = "2024",
address = "Torino, Italia",
publisher = "ELRA and ICCL",
url = "https://aclanthology.org/2024.lrec-main.700",
pages = "7949--7962",
}
📄 ライセンス
このプロジェクトは、MITライセンスの下で公開されています。