🚀 罗马尼亚语无大小写区分基础版BERT模型 v1
这是一个针对罗马尼亚语的BERT 基础、无大小写区分 模型,在15GB的语料库上进行训练,版本为
。该模型能够为罗马尼亚语的自然语言处理任务提供强大的支持,例如文本分类、命名实体识别等。
🚀 快速开始
模型使用
from transformers import AutoTokenizer, AutoModel
import torch
tokenizer = AutoTokenizer.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1", do_lower_case=True)
model = AutoModel.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1")
input_ids = torch.tensor(tokenizer.encode("Acesta este un test.", add_special_tokens=True)).unsqueeze(0)
outputs = model(input_ids)
last_hidden_states = outputs[0]
文本清理提示
⚠️ 重要提示
请始终对文本进行清理!将 s
和 t
的软音符字母替换为逗号字母,使用以下代码:
text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
因为该模型 未 在带有软音符的 s
和 t
字母上进行训练。如果不进行替换,由于出现 <UNK>
标记以及每个单词的标记数量增加,模型性能将会下降。
📊 评估结果
评估是在通用依存关系 罗马尼亚语RRT 的UPOS、XPOS和LAS上进行的,同时也在基于 RONEC 的命名实体识别(NER)任务上进行了评估。详细信息以及更多未在此展示的深度测试内容,请参考专门的 评估页面。
基准模型是 多语言BERT 模型 bert-base-multilingual-(un)cased
,在编写本文时,它是唯一可用于罗马尼亚语的BERT模型。
模型 |
UPOS |
XPOS |
NER |
LAS |
bert-base-multilingual-uncased |
97.65 |
95.72 |
83.91 |
87.65 |
bert-base-romanian-uncased-v1 |
98.18 |
96.84 |
85.26 |
89.61 |
从评估结果可以看出,本模型在各项指标上均优于多语言BERT模型,表现更出色。
📚 训练语料库
该模型在以下语料库上进行训练(下表中的统计数据是清理后的结果):
语料库 |
行数(百万) |
单词数(百万) |
字符数(十亿) |
大小(GB) |
OPUS |
55.05 |
635.04 |
4.045 |
3.8 |
OSCAR |
33.56 |
1725.82 |
11.411 |
11 |
维基百科 |
1.54 |
60.47 |
0.411 |
0.4 |
总计 |
90.15 |
2421.33 |
15.867 |
15.2 |
这些丰富的语料库为模型的训练提供了充足的数据支持,有助于模型学习到更全面的语言知识。
📖 引用信息
如果您在研究论文中使用了该模型,请引用以下论文:
Stefan Dumitrescu, Andrei-Marius Avram, and Sampo Pyysalo. 2020. The birth of Romanian BERT. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4324–4328, Online. Association for Computational Linguistics.
或者使用BibTeX格式引用:
@inproceedings{dumitrescu-etal-2020-birth,
title = "The birth of {R}omanian {BERT}",
author = "Dumitrescu, Stefan and
Avram, Andrei-Marius and
Pyysalo, Sampo",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.387",
doi = "10.18653/v1/2020.findings-emnlp.387",
pages = "4324--4328",
}
🙏 致谢
我们要感谢来自图尔库自然语言处理小组(TurkuNLP)的 Sampo Pyysalo,他为预训练v1.0 BERT模型提供了计算资源支持,非常感谢他的帮助!
📄 许可证
本项目采用MIT许可证。