🚀 ルーマニア語用BERTモデル(bert-base-romanian-uncased-v1)
このモデルはルーマニア語用のBERT ベース かつ 小文字化 モデルで、15GBのコーパスで学習され、バージョンは
です。
🚀 クイックスタート
使い方
from transformers import AutoTokenizer, AutoModel
import torch
tokenizer = AutoTokenizer.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1", do_lower_case=True)
model = AutoModel.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1")
input_ids = torch.tensor(tokenizer.encode("Acesta este un test.", add_special_tokens=True)).unsqueeze(0)
outputs = model(input_ids)
last_hidden_states = outputs[0]
⚠️ 重要提示
常にテキストをクレンジングする必要があります。モデルはセディラ文字の s
と t
で学習されていないため、これらをコンマ付きの文字に置き換えてください。
text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
これを行わないと、<UNK>
の影響でパフォーマンスが低下し、単語あたりのトークン数が増えます。
🔧 技術詳細
評価
評価は、Universal Dependencies Romanian RRT のUPOS、XPOS、LAS、および RONEC に基づくNERタスクで行われます。詳細やここには示されていないより詳細なテストは、専用の評価ページに記載されています。
ベースラインは、Multilingual BERT モデル bert-base-multilingual-(un)cased
です。これは、この記事の執筆時点でルーマニア語で動作する唯一の利用可能なBERTモデルでした。
モデル |
UPOS |
XPOS |
NER |
LAS |
bert-base-multilingual-uncased |
97.65 |
95.72 |
83.91 |
87.65 |
bert-base-romanian-uncased-v1 |
98.18 |
96.84 |
85.26 |
89.61 |
コーパス
このモデルは以下のコーパスで学習されています(以下の表の統計はクレンジング後のものです)。
コーパス |
行数(百万) |
単語数(百万) |
文字数(10億) |
サイズ(GB) |
OPUS |
55.05 |
635.04 |
4.045 |
3.8 |
OSCAR |
33.56 |
1725.82 |
11.411 |
11 |
Wikipedia |
1.54 |
60.47 |
0.411 |
0.4 |
合計 |
90.15 |
2421.33 |
15.867 |
15.2 |
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
📚 引用
もしこのモデルを研究論文で使用する場合は、以下の論文を引用していただけると幸いです。
Stefan Dumitrescu, Andrei-Marius Avram, and Sampo Pyysalo. 2020. The birth of Romanian BERT. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4324–4328, Online. Association for Computational Linguistics.
または、bibtex形式では以下の通りです。
@inproceedings{dumitrescu-etal-2020-birth,
title = "The birth of {R}omanian {BERT}",
author = "Dumitrescu, Stefan and
Avram, Andrei-Marius and
Pyysalo, Sampo",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.387",
doi = "10.18653/v1/2020.findings-emnlp.387",
pages = "4324--4328",
}
謝辞
- TurkuNLPの Sampo Pyysalo 氏には、v1.0 BERTモデルの事前学習に必要なコンピューティング資源を提供していただき、感謝申し上げます。彼は本当に素晴らしい方です!