🚀 XLMR-BERTovski模型
XLMR-BERTovski 是一個大型預訓練語言模型,在保加利亞語和馬其頓語文本上進行訓練。它基於 XLM-RoBERTa-large 模型繼續訓練而來,是 MaCoCu 項目的一部分。主要開發者是來自格羅寧根大學的 Rik van Noord。該模型支持保加利亞語(bg)、馬其頓語(mk)以及多語言(multilingual)。
🚀 快速開始
以下是使用 XLMR-BERTovski
模型的示例代碼:
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski")
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski")
✨ 主要特性
- 語言支持:支持保加利亞語和馬其頓語,適用於處理這兩種語言的相關任務。
- 預訓練基礎:基於強大的 XLM-RoBERTa-large 模型繼續訓練,繼承了其優秀的語言理解能力。
- 大規模數據訓練:使用 74GB 的保加利亞語和馬其頓語文本進行訓練,約 70 多億個標記,保證了模型的泛化能力。
📦 安裝指南
暫未提及具體安裝步驟,你可以參考 Hugging Face 相關文檔進行模型的安裝和使用。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski")
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski")
📚 詳細文檔
模型描述
XLMR-BERTovski 在 74GB 的保加利亞語和馬其頓語文本上進行訓練,約 70 多億個標記。訓練進行了 67,500 步,批次大小為 1,024,約 2.5 個週期。它使用與原始 XLMR-large 模型相同的詞彙表。該模型與 BERTovski 使用相同的數據進行訓練,但本模型使用 RoBERTa 架構從頭開始訓練。訓練和微調過程的詳細信息可在 Github 倉庫 中查看。
數據
訓練時使用了 MaCoCu、Oscar、mc4 和維基百科語料庫中的所有保加利亞語和馬其頓語數據。在手動分析中發現,對於 Oscar 和 mc4 語料庫,如果數據不是來自相應的域名(.bg 或 .mk),則通常是(質量較差的)機器翻譯數據。因此,僅使用了最初來自 .bg 或 .mk 域名的數據。去重後,共有 54.5GB 的保加利亞語文本和 9GB 的馬其頓語文本。由於保加利亞語數據較多,訓練時將馬其頓語數據簡單翻倍。
基準性能
在 XPOS、UPOS 和 NER 基準測試中對 XLMR-BERTovski 的性能進行了測試。對於保加利亞語,使用了 通用依存關係 項目的數據;對於馬其頓語,使用了 babushka-bench 項目中創建的數據集。還在 COPA 數據集的谷歌(保加利亞語)和人工(馬其頓語)翻譯版本上進行了測試(詳細信息見 Github 倉庫)。將其性能與 BERTovski 以及強大的多語言模型 XLMR-base 和 XLMR-large 進行了比較。關於微調過程的詳細信息,可查看 Github。
保加利亞語
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
99.2 |
99.4 |
98.0 |
98.3 |
93.2 |
92.9 |
56.9 |
XLM-R-large |
99.3 |
99.4 |
97.4 |
97.7 |
93.7 |
93.5 |
53.1 |
BERTovski |
98.8 |
99.1 |
97.6 |
97.8 |
93.5 |
93.3 |
51.7 |
XLMR-BERTovski |
99.3 |
99.5 |
98.5 |
98.8 |
94.4 |
94.3 |
54.6 |
馬其頓語
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
98.3 |
98.6 |
97.3 |
97.1 |
92.8 |
94.8 |
55.3 |
XLM-R-large |
98.3 |
98.7 |
97.7 |
97.5 |
93.3 |
95.1 |
52.5 |
BERTovski |
97.8 |
98.1 |
96.4 |
96.0 |
92.8 |
94.6 |
51.8 |
XLMR-BERTovski |
98.6 |
98.8 |
98.0 |
97.7 |
94.4 |
96.3 |
55.6 |
致謝
本研究得到了谷歌 TPU 研究雲(TRC)的 Cloud TPU 支持。作者獲得了歐盟連接歐洲設施 2014 - 2020 - CEF 電信的資助,資助協議編號為 INEA/CEF/ICT/A2020/2278341(MaCoCu)。
引用
如果使用此模型,請引用以下論文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}
📄 許可證
該模型使用 CC0-1.0 許可證。