🚀 RoBERTa希腊基础模型
本项目是一个基于希腊语预训练的模型,采用掩码语言建模(Masked Language Modeling,MLM)目标,借助Hugging Face的Transformers库进行训练。该模型不区分大小写,并且保留了所有希腊语变音符号。
🚀 快速开始
你可以直接使用此模型进行掩码语言建模:
from transformers import pipeline
pipe = pipeline('fill-mask', model='cvcio/roberta-el-news')
pipe(
'Η κυβέρνηση μουδιασμένη από τη <mask> της έκθεσης Τσιόδρα-Λύτρα, '
'επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.'
)
[
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσιοποίηση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.5881184339523315, 'token': 20235, 'token_str': ' δημοσιοποίηση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσίευση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.05952141433954239, 'token': 9696, 'token_str': ' δημοσίευση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαχείριση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.029887061566114426, 'token': 4315, 'token_str': ' διαχείριση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαρροή της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.022848669439554214, 'token': 24940, 'token_str': ' διαρροή'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη ματαίωση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.01729060709476471, 'token': 46913, 'token_str': ' ματαίωση'
}
]
📦 安装指南
文档未提及安装相关内容,故跳过此章节。
✨ 主要特性
- 基于希腊语进行预训练,采用掩码语言建模目标。
- 不区分大小写,保留所有希腊语变音符号。
📚 详细文档
训练数据
该模型在约800万篇独特的新闻文章(约1.6亿个句子,33GB文本)上进行预训练,这些文章使用MediaWatch收集,时间跨度从2016年10月到2021年12月。
预处理
文本使用字节版本的字节对编码(Byte-Pair Encoding,BPE)进行分词,词汇表大小为50,265。在预处理过程中,仅将HTML文本转换为相应的Unicode字符(例如,&
=> &
)。
预训练
模型使用NVIDIA A10 GPU进行3个epoch(约760K步,182小时)的预训练,批大小为14(x2梯度累积步骤 = 28),序列长度为512个token。使用的优化器是Adam,学习率为5e-5,学习率采用线性衰减。
训练结果
轮数 |
步数 |
训练/训练损失 |
训练/损失 |
评估/损失 |
3 |
765,414 |
0.3960 |
1.2356 |
0.9028 |
评估结果
该模型在elNER数据集上进行命名实体识别(NER)任务的微调,并取得了以下结果:
任务 |
轮数 |
学习率 |
批大小 |
数据集 |
精确率 |
召回率 |
F1值 |
准确率 |
ner |
5 |
1e-5 |
16/16 |
elNER4 |
0.8954 |
0.9280 |
0.9114 |
0.9872 |
ner |
5 |
1e-4 |
16/16 |
elNER18 |
0.9069 |
0.9268 |
0.9168 |
0.9823 |
训练超参数
训练过程中使用的超参数如下:
- 学习率:5e-5
- 训练批大小:14
- 评估批大小:8
- 随机种子:42
- 梯度累积步骤:2
- 总训练批大小:28
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 训练轮数:3.0
框架版本
- Transformers 4.13.0
- Pytorch 1.9.0+cu111
- Datasets 1.16.1
- Tokenizers 0.10.3
🔧 技术细节
- 采用掩码语言建模目标,通过预测被掩码的token来学习语言表示。
- 使用字节对编码进行分词,能够处理未登录词。
- 训练过程中使用线性衰减的学习率,有助于模型收敛。
📄 许可证
该项目采用GPL-3.0许可证。
👨💻 作者
Dimitris Papaevagelou - @andefined
🏢 关于我们
公民信息办公室是一家位于希腊雅典的非营利组织,专注于为公共利益创建技术和研究产品。