roberta-el-news开源模型 - 基于希腊语新闻数据，实现掩码语言建模

首页

Roberta El News

由 cvcio 开发

基于希腊语新闻数据预训练的RoBERTa模型，专注于掩码语言建模任务

大型语言模型

Transformers

其他开源协议:Gpl-3.0 #希腊语新闻分析 #掩码语言建模 #高精度NER

下载量 51

发布时间 : 3/2/2022

模型简介

这是一个基于希腊语新闻数据预训练的RoBERTa模型，采用掩码语言建模(MLM)目标训练，适用于希腊语文本处理任务。

模型特点

希腊语新闻数据训练

使用2016-2021年间800万篇希腊新闻文章(约1.6亿句)进行预训练

保留变音符号

模型处理希腊语文本时保留所有变音符号

不区分大小写

模型对文本大小写不敏感

高效分词

使用BPE分词器，词汇量50,265

模型能力

希腊语文本理解

掩码语言预测

命名实体识别(经微调)

使用案例

新闻分析

政治新闻分析

分析希腊政治新闻中的关键信息

在示例中成功预测了政治报道中的关键词语

文本补全

新闻文本补全

预测新闻文本中被掩码的词语

在示例中准确预测了'公开'、'发布'等词语

🚀 RoBERTa希腊基础模型

本项目是一个基于希腊语预训练的模型，采用掩码语言建模（Masked Language Modeling，MLM）目标，借助Hugging Face的Transformers库进行训练。该模型不区分大小写，并且保留了所有希腊语变音符号。

🚀 快速开始

你可以直接使用此模型进行掩码语言建模：

# 示例链接 
# https://www.news247.gr/politiki/misologa-maximoy-gia-tin-ekthesi-tsiodra-lytra-gia-ti-thnitotita-ektos-meth.9462425.html 
# 不在训练/评估集中
from transformers import pipeline
pipe = pipeline('fill-mask', model='cvcio/roberta-el-news')
pipe(
    'Η κυβέρνηση μουδιασμένη από τη <mask> της έκθεσης Τσιόδρα-Λύτρα, '
    'επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.'
)
# 输出结果
[
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσιοποίηση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.5881184339523315, 'token': 20235, 'token_str': ' δημοσιοποίηση'
    }, 
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσίευση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.05952141433954239, 'token': 9696, 'token_str': ' δημοσίευση'
    }, 
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαχείριση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.029887061566114426, 'token': 4315, 'token_str': ' διαχείριση'
    }, 
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαρροή της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.022848669439554214, 'token': 24940, 'token_str': ' διαρροή'
    }, 
    {
        'sequence': 'Η κυβέρνηση μουδιασμένη από τη ματαίωση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.', 
        'score': 0.01729060709476471, 'token': 46913, 'token_str': ' ματαίωση'
    }
]