roberta-el-news開源模型 - 基於希臘語新聞數據，實現掩碼語言建模

首頁

Roberta El News

由cvcio開發

基於希臘語新聞數據預訓練的RoBERTa模型，專注於掩碼語言建模任務

大型語言模型

Transformers

其他開源協議:Gpl-3.0 #希臘語新聞分析 #掩碼語言建模 #高精度NER

下載量 51

發布時間 : 3/2/2022

模型概述

這是一個基於希臘語新聞數據預訓練的RoBERTa模型，採用掩碼語言建模(MLM)目標訓練，適用於希臘語文本處理任務。

模型特點

希臘語新聞數據訓練

使用2016-2021年間800萬篇希臘新聞文章(約1.6億句)進行預訓練

保留變音符號

模型處理希臘語文本時保留所有變音符號

不區分大小寫

模型對文本大小寫不敏感

高效分詞

使用BPE分詞器，詞彙量50,265

模型能力

希臘語文本理解

掩碼語言預測

命名實體識別(經微調)

使用案例

新聞分析

政治新聞分析

分析希臘政治新聞中的關鍵信息

在示例中成功預測了政治報道中的關鍵詞語

文本補全

新聞文本補全

預測新聞文本中被掩碼的詞語

在示例中準確預測了'公開'、'發佈'等詞語

🚀 RoBERTa希臘基礎模型

本項目是一個基於希臘語預訓練的模型，採用掩碼語言建模（Masked Language Modeling，MLM）目標，藉助Hugging Face的Transformers庫進行訓練。該模型不區分大小寫，並且保留了所有希臘語變音符號。

🚀 快速開始

你可以直接使用此模型進行掩碼語言建模：

# 示例鏈接 
# https://www.news247.gr/politiki/misologa-maximoy-gia-tin-ekthesi-tsiodra-lytra-gia-ti-thnitotita-ektos-meth.9462425.html 
# 不在訓練/評估集中
from transformers import pipeline
pipe = pipeline('fill-mask', model='cvcio/roberta-el-news')
pipe(
    'Η κυβέρνηση μουδιασμένη από τη <mask> της έκθεσης Τσιόδρα-Λύτρα, '
    'επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.'
)
# 輸出結果
[
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσιοποίηση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.5881184339523315, 'token': 20235, 'token_str': ' δημοσιοποίηση'
    }, 
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσίευση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.05952141433954239, 'token': 9696, 'token_str': ' δημοσίευση'
    }, 
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαχείριση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.029887061566114426, 'token': 4315, 'token_str': ' διαχείριση'
    }, 
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαρροή της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.022848669439554214, 'token': 24940, 'token_str': ' διαρροή'
    }, 
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη ματαίωση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.01729060709476471, 'token': 46913, 'token_str': ' ματαίωση'
    }
]