🚀 XLMR-MaltBERTa
XLMR-MaltBERTa 是一個基於馬耳他語文本訓練的大型預訓練語言模型。它在 XLM-RoBERTa-large 模型的基礎上繼續訓練得到,是 MaCoCu 項目的一部分。主要開發者是來自格羅寧根大學的 Rik van Noord。
🚀 快速開始
你可以按照以下代碼示例使用 XLMR-MaltBERTa 模型:
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaltBERTa")
model = AutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
✨ 主要特性
- 基於已有模型擴展:在 XLM-RoBERTa-large 模型基礎上繼續訓練,充分利用已有模型的優勢。
- 特定語言訓練:專門針對馬耳他語文本進行訓練,更適合處理馬耳他語相關的任務。
- 與其他模型對比優勢明顯:在 UPOS、XPOS 和 COPA 等基準測試中,相比其他多語言模型和馬耳他語模型,表現出了更優的性能。
📦 安裝指南
暫未提供具體安裝步驟,可參考代碼示例中使用 transformers
庫加載模型的方式,確保 transformers
庫已正確安裝。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaltBERTa")
model = AutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
📚 詳細文檔
模型描述
XLMR-MaltBERTa 在 3.2GB 的文本(相當於 4.39 億個標記)上進行了訓練,訓練步數為 50,000,批次大小為 1,024。它使用了與原始 XLMR-large 模型相同的詞彙表。該模型與 MaltBERTa 在相同的數據上進行訓練,但本模型是使用 RoBERTa 架構從頭開始訓練的。訓練和微調過程的詳細信息可在我們的 Github 倉庫 中查看。
數據來源
訓練時,我們使用了 MaCoCu、Oscar 和 mc4 語料庫中所有的馬耳他語數據。經過數據去重後,最終得到了 3.2GB 的文本數據。
基準測試性能
我們在 通用依存關係 項目的 UPOS 和 XPOS 基準測試中對 MaltBERTa 的性能進行了測試。此外,我們還在 Google 翻譯版本的 COPA 數據集上進行了測試(詳情可查看我們的 Github 倉庫)。我們將其性能與強大的多語言模型 XLMR-base 和 XLMR-large 進行了比較,需要注意的是,馬耳他語並非這些模型的訓練語言之一。我們還與最近推出的馬耳他語模型 BERTu、mBERTu 以及我們自己的 MaltBERTa 進行了比較。關於微調過程的詳細信息,你可以查看我們的 Github。
分數是 UPOS/XPOS 三次運行和 COPA 十次運行的平均值。對於 UPOS/XPOS,我們對所有模型使用相同的超參數設置,而對於 COPA,我們在開發集上進行了優化。
|
UPOS |
UPOS |
XPOS |
XPOS |
COPA |
|
開發集 |
測試集 |
開發集 |
測試集 |
測試集 |
XLM-R-base |
93.6 |
93.2 |
93.4 |
93.2 |
52.2 |
XLM-R-large |
94.9 |
94.4 |
95.1 |
94.7 |
54.0 |
BERTu |
97.5 |
97.6 |
95.7 |
95.8 |
55.6 |
mBERTu |
97.7 |
97.8 |
97.9 |
98.1 |
52.6 |
MaltBERTa |
95.7 |
95.8 |
96.1 |
96.0 |
53.7 |
XLMR-MaltBERTa |
97.7 |
98.1 |
98.1 |
98.2 |
54.4 |
🔧 技術細節
- 訓練數據量:使用 3.2GB 的馬耳他語文本數據進行訓練,共計 4.39 億個標記。
- 訓練參數:訓練步數為 50,000,批次大小為 1,024。
- 詞彙表:使用與原始 XLMR-large 模型相同的詞彙表。
- 架構:基於 RoBERTa 架構從頭開始訓練。
📄 許可證
本模型採用 CC0-1.0 許可證。
致謝
本研究得到了 Google 的 TPU 研究雲(TRC)的 Cloud TPU 支持。作者們獲得了歐盟連接歐洲設施 2014 - 2020 - CEF 電信的資助,資助協議編號為 INEA/CEF/ICT/A2020/2278341(MaCoCu)。
引用
如果您使用此模型,請引用以下論文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}