bert-base-romanian-uncased-v1開源模型 - 以15GB語料訓練，優化羅馬尼亞語NLP任務

首頁

Bert Base Romanian Uncased V1

由dumitrescustefan開發

羅馬尼亞語BERT基礎無大小寫模型，基於15GB語料庫訓練，專為羅馬尼亞語NLP任務優化

大型語言模型其他開源協議:MIT #羅馬尼亞語BERT #無大小寫處理 #自然語言處理

下載量 2,294

發布時間 : 3/2/2022

模型概述

這是一個針對羅馬尼亞語優化的BERT基礎模型，無大小寫區分，適用於各種自然語言處理任務。

模型特點

羅馬尼亞語專用

專門針對羅馬尼亞語訓練，相比多語言BERT模型性能更優

字符標準化處理

要求輸入文本將帶鉤形符的s和t字母替換為帶逗號形的字母，以獲得最佳性能

全面評估

在UPOS、XPOS、NER和LAS等多個NLP任務上進行了全面評估

模型能力

文本編碼

命名實體識別

詞性標註

依存句法分析

使用案例

自然語言處理

羅馬尼亞語文本分析

用於處理和分析羅馬尼亞語文本

在各項NLP任務上優於多語言BERT模型

命名實體識別

識別羅馬尼亞語文本中的命名實體

在RONEC數據集上達到85.26的F1分數

🚀 羅馬尼亞語無大小寫區分基礎版BERT模型 v1

這是一個針對羅馬尼亞語的BERT 基礎、無大小寫區分 模型，在15GB的語料庫上進行訓練，版本為。該模型能夠為羅馬尼亞語的自然語言處理任務提供強大的支持，例如文本分類、命名實體識別等。

🚀 快速開始

模型使用

from transformers import AutoTokenizer, AutoModel
import torch

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1", do_lower_case=True)
model = AutoModel.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1")

# 對句子進行分詞並通過模型處理
input_ids = torch.tensor(tokenizer.encode("Acesta este un test.", add_special_tokens=True)).unsqueeze(0)  # 批量大小為1
outputs = model(input_ids)

# 獲取編碼
last_hidden_states = outputs[0]  # 最後一個隱藏狀態是輸出元組的第一個元素

文本清理提示

⚠️ 重要提示

請始終對文本進行清理！將 s 和 t 的軟音符字母替換為逗號字母，使用以下代碼：

text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

因為該模型未在帶有軟音符的 s 和 t 字母上進行訓練。如果不進行替換，由於出現 <UNK> 標記以及每個單詞的標記數量增加，模型性能將會下降。

📊 評估結果

評估是在通用依存關係羅馬尼亞語RRT 的UPOS、XPOS和LAS上進行的，同時也在基於 RONEC 的命名實體識別（NER）任務上進行了評估。詳細信息以及更多未在此展示的深度測試內容，請參考專門的評估頁面。

基準模型是多語言BERT 模型 bert-base-multilingual-(un)cased，在編寫本文時，它是唯一可用於羅馬尼亞語的BERT模型。

模型	UPOS	XPOS	NER	LAS
bert-base-multilingual-uncased	97.65	95.72	83.91	87.65
bert-base-romanian-uncased-v1	98.18	96.84	85.26	89.61

從評估結果可以看出，本模型在各項指標上均優於多語言BERT模型，表現更出色。

📚 訓練語料庫

該模型在以下語料庫上進行訓練（下表中的統計數據是清理後的結果）：

語料庫	行數（百萬）	單詞數（百萬）	字符數（十億）	大小（GB）
OPUS	55.05	635.04	4.045	3.8
OSCAR	33.56	1725.82	11.411	11
維基百科	1.54	60.47	0.411	0.4
總計	90.15	2421.33	15.867	15.2

這些豐富的語料庫為模型的訓練提供了充足的數據支持，有助於模型學習到更全面的語言知識。

📖 引用信息

如果您在研究論文中使用了該模型，請引用以下論文：

Stefan Dumitrescu, Andrei-Marius Avram, and Sampo Pyysalo. 2020. The birth of Romanian BERT. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4324–4328, Online. Association for Computational Linguistics.

或者使用BibTeX格式引用：

@inproceedings{dumitrescu-etal-2020-birth,
    title = "The birth of {R}omanian {BERT}",
    author = "Dumitrescu, Stefan  and
      Avram, Andrei-Marius  and
      Pyysalo, Sampo",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.387",
    doi = "10.18653/v1/2020.findings-emnlp.387",
    pages = "4324--4328",
}