🚀 MaltBERTa - 馬耳他語預訓練語言模型
MaltBERTa 是一個基於馬耳他語文本訓練的大型預訓練語言模型。它使用 RoBERTa 架構從頭開始訓練,是 MaCoCu 項目的一部分。主要開發者是來自格羅寧根大學的 Rik van Noord。該模型在 32 億字節(相當於 4.39 億個標記)的文本上進行了訓練,訓練步數為 100,000,批次大小為 1,024。
✨ 主要特性
- 基於 RoBERTa 架構從頭開始訓練,專為馬耳他語設計。
- 在多個基準測試中表現出色,可與其他多語言模型相媲美。
📦 安裝指南
本模型的使用依賴於 transformers
庫,你可以使用以下命令進行安裝:
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/MaltBERTa")
model = AutoModel.from_pretrained("RVN/MaltBERTa")
model = TFAutoModel.from_pretrained("RVN/MaltBERTa")
📚 詳細文檔
模型描述
MaltBERTa 是一個在馬耳他語文本上訓練的大型預訓練語言模型。它使用 RoBERTa 架構從頭開始訓練,是 MaCoCu 項目的一部分。主要開發者是來自格羅寧根大學的 Rik van Noord。該模型在 3.2GB 的文本上進行了訓練,相當於 439M 個標記。訓練步數為 100,000,批次大小為 1,024。訓練和微調過程的詳細信息可在我們的 Github 倉庫 中找到。
數據
在訓練過程中,我們使用了 MaCoCu、Oscar 和 mc4 語料庫中的所有馬耳他語數據。經過去重處理後,我們得到了總共 3.2GB 的文本。我們進行了僅使用來自 Oscar 和 mc4 中 .mt 域名數據的實驗,但發現結合所有數據能獲得更好的性能。
基準測試性能
我們在 Universal Dependencies 項目的 UPOS 和 XPOS 基準測試中測試了 MaltBERTa 的性能。此外,我們還在 Google 翻譯版本的 COPA 數據集上進行了測試(詳情請參閱我們的 Github 倉庫)。我們將其性能與強大的多語言模型 XLMR-base 和 XLMR-large 進行了比較,需要注意的是,馬耳他語並非這些模型的訓練語言之一。我們還與最近推出的馬耳他語模型 BERTu、mBERTu 和我們自己的 MaltBERTa 進行了比較。有關微調過程的詳細信息,請查看我們的 Github。
|
UPOS(開發集) |
UPOS(測試集) |
XPOS(開發集) |
XPOS(測試集) |
COPA(測試集) |
XLM-R-base |
93.6 |
93.2 |
93.4 |
93.2 |
52.2 |
XLM-R-large |
94.9 |
94.4 |
95.1 |
94.7 |
54.0 |
BERTu |
97.5 |
97.6 |
95.7 |
95.8 |
55.6 |
mBERTu |
97.7 |
97.8 |
97.9 |
98.1 |
52.6 |
MaltBERTa |
95.7 |
95.8 |
96.1 |
96.0 |
53.7 |
🔧 技術細節
MaltBERTa 使用 RoBERTa 架構進行訓練,訓練數據來自多個語料庫。訓練過程中,模型在 3.2GB 的文本上進行了 100,000 步的訓練,批次大小為 1,024。詳細的訓練和微調過程可在我們的 Github 倉庫 中找到。
📄 許可證
本項目採用 CC0-1.0 許可證。
📖 致謝
本研究得到了 Google 的 TPU 研究雲(TRC)的 Cloud TPU 支持。作者們獲得了歐盟連接歐洲設施 2014 - 2020 - CEF 電信的資助,資助協議編號為 INEA/CEF/ICT/A2020/2278341(MaCoCu)。
📜 引用
如果您使用此模型,請引用以下論文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}