bert-base-romanian-uncased-v1开源模型 - 以15GB语料训练，优化罗马尼亚语NLP任务

首页

Bert Base Romanian Uncased V1

由 dumitrescustefan 开发

罗马尼亚语BERT基础无大小写模型，基于15GB语料库训练，专为罗马尼亚语NLP任务优化

大型语言模型其他开源协议:MIT #罗马尼亚语BERT #无大小写处理 #自然语言处理

下载量 2,294

发布时间 : 3/2/2022

模型简介

这是一个针对罗马尼亚语优化的BERT基础模型，无大小写区分，适用于各种自然语言处理任务。

模型特点

罗马尼亚语专用

专门针对罗马尼亚语训练，相比多语言BERT模型性能更优

字符标准化处理

要求输入文本将带钩形符的s和t字母替换为带逗号形的字母，以获得最佳性能

全面评估

在UPOS、XPOS、NER和LAS等多个NLP任务上进行了全面评估

模型能力

文本编码

命名实体识别

词性标注

依存句法分析

使用案例

自然语言处理

罗马尼亚语文本分析

用于处理和分析罗马尼亚语文本

在各项NLP任务上优于多语言BERT模型

命名实体识别

识别罗马尼亚语文本中的命名实体

在RONEC数据集上达到85.26的F1分数

🚀 罗马尼亚语无大小写区分基础版BERT模型 v1

这是一个针对罗马尼亚语的BERT 基础、无大小写区分 模型，在15GB的语料库上进行训练，版本为。该模型能够为罗马尼亚语的自然语言处理任务提供强大的支持，例如文本分类、命名实体识别等。

🚀 快速开始

模型使用

from transformers import AutoTokenizer, AutoModel
import torch

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1", do_lower_case=True)
model = AutoModel.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1")

# 对句子进行分词并通过模型处理
input_ids = torch.tensor(tokenizer.encode("Acesta este un test.", add_special_tokens=True)).unsqueeze(0)  # 批量大小为1
outputs = model(input_ids)

# 获取编码
last_hidden_states = outputs[0]  # 最后一个隐藏状态是输出元组的第一个元素

文本清理提示

⚠️ 重要提示

请始终对文本进行清理！将 s 和 t 的软音符字母替换为逗号字母，使用以下代码：

text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

因为该模型未在带有软音符的 s 和 t 字母上进行训练。如果不进行替换，由于出现 <UNK> 标记以及每个单词的标记数量增加，模型性能将会下降。

📊 评估结果

评估是在通用依存关系罗马尼亚语RRT 的UPOS、XPOS和LAS上进行的，同时也在基于 RONEC 的命名实体识别（NER）任务上进行了评估。详细信息以及更多未在此展示的深度测试内容，请参考专门的评估页面。

基准模型是多语言BERT 模型 bert-base-multilingual-(un)cased，在编写本文时，它是唯一可用于罗马尼亚语的BERT模型。

模型	UPOS	XPOS	NER	LAS
bert-base-multilingual-uncased	97.65	95.72	83.91	87.65
bert-base-romanian-uncased-v1	98.18	96.84	85.26	89.61

从评估结果可以看出，本模型在各项指标上均优于多语言BERT模型，表现更出色。

📚 训练语料库

该模型在以下语料库上进行训练（下表中的统计数据是清理后的结果）：

语料库	行数（百万）	单词数（百万）	字符数（十亿）	大小（GB）
OPUS	55.05	635.04	4.045	3.8
OSCAR	33.56	1725.82	11.411	11
维基百科	1.54	60.47	0.411	0.4
总计	90.15	2421.33	15.867	15.2

这些丰富的语料库为模型的训练提供了充足的数据支持，有助于模型学习到更全面的语言知识。

📖 引用信息

如果您在研究论文中使用了该模型，请引用以下论文：

Stefan Dumitrescu, Andrei-Marius Avram, and Sampo Pyysalo. 2020. The birth of Romanian BERT. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4324–4328, Online. Association for Computational Linguistics.

或者使用BibTeX格式引用：

@inproceedings{dumitrescu-etal-2020-birth,
    title = "The birth of {R}omanian {BERT}",
    author = "Dumitrescu, Stefan  and
      Avram, Andrei-Marius  and
      Pyysalo, Sampo",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.387",
    doi = "10.18653/v1/2020.findings-emnlp.387",
    pages = "4324--4328",
}