🚀 BERTovski大預訓練語言模型
BERTovski 是一個基於保加利亞語和馬其頓語文本訓練的大型預訓練語言模型。它採用RoBERTa架構從頭開始訓練,是 MaCoCu 項目的一部分。主要開發者是來自格羅寧根大學的 Rik van Noord。該模型在74GB文本(約70多億個標記)上進行了訓練,訓練步數為300,000,批次大小為2,048,約30個輪次。
🚀 快速開始
模型使用
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski")
model = TFAutoModel.from_pretrained("RVN/BERTovski")
訓練和微調
訓練和微調的具體步驟可查看 Github倉庫。我們計劃對該模型進行更長時間的訓練,敬請關注新版本!
✨ 主要特性
- 多語言支持:支持保加利亞語(bg)、馬其頓語(mk)等多語言。
- 大規模訓練:在74GB文本上進行訓練,約70多億個標記。
- 架構先進:採用RoBERTa架構從頭開始訓練。
📦 安裝指南
暫未提及具體安裝步驟,可參考模型使用部分的代碼示例。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski")
model = TFAutoModel.from_pretrained("RVN/BERTovski")
📚 詳細文檔
數據使用
訓練數據來自 MaCoCu、Oscar、mc4 和維基百科語料庫中的保加利亞語和馬其頓語數據。在手動分析中發現,Oscar和mc4中非對應域名(.bg或.mk)的數據常為機器翻譯且質量不佳,因此僅使用來自.bg或.mk域名的原始數據。去重後,共有54.5GB保加利亞語文本和9GB馬其頓語文本。由於保加利亞語數據較多,訓練時將馬其頓語數據翻倍。在保加利亞語/馬其頓語比例為50/50的子集上訓練了一個包含32,000個詞片的共享詞彙表。
基準測試
在XPOS、UPOS和NER基準測試中對BERTovski進行了性能測試。保加利亞語使用 Universal Dependencies 項目的數據,馬其頓語使用 babushka-bench 項目創建的數據集。還在谷歌翻譯(保加利亞語)和人工翻譯(馬其頓語)的COPA數據集上進行了測試(詳情見 Github倉庫)。將性能與多語言模型XLMR-base和XLMR-large進行了比較。微調步驟詳情可查看 Github。
保加利亞語測試結果
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
99.2 |
99.4 |
98.0 |
98.3 |
93.2 |
92.9 |
56.9 |
XLM-R-large |
99.3 |
99.4 |
97.4 |
97.7 |
93.7 |
93.5 |
53.1 |
BERTovski |
98.8 |
99.1 |
97.6 |
97.8 |
93.5 |
93.3 |
51.7 |
馬其頓語測試結果
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
98.3 |
98.6 |
97.3 |
97.1 |
92.8 |
94.8 |
55.3 |
XLM-R-large |
98.3 |
98.7 |
97.7 |
97.5 |
93.3 |
95.1 |
52.5 |
BERTovski |
97.8 |
98.1 |
96.4 |
96.0 |
92.8 |
94.6 |
51.8 |
致謝
本研究得到了谷歌TPU研究雲(TRC)的Cloud TPU支持。作者獲得了歐盟連接歐洲設施2014 - 2020 - CEF電信項目的資助,資助協議編號為INEA/CEF/ICT/A2020/2278341(MaCoCu)。
引用
如果使用該模型,請引用以下論文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}
📄 許可證
本模型採用CC0-1.0許可證。