XLMR - BERTovski開源語言模型 - 助力保加利亞語與馬其頓語文本處理應用

Home

XLMR BERTovski

Developed by MaCoCu

基於保加利亞語和馬其頓語文本大規模預訓練的語言模型，是MaCoCu項目的一部分

大型語言模型 Other#保加利亞語優化 #馬其頓語優化 #多語言NLP

Downloads 36

Release Time : 8/11/2022

Model Overview

XLMR-BERTovski是一個基於XLM-RoBERTa-large繼續訓練的保加利亞語和馬其頓語語言模型，主要用於自然語言處理任務

Model Features

大規模雙語預訓練

在74GB的保加利亞語和馬其頓語文本上訓練，包含超過70億個標記

優化的數據採樣

對數據量較少的馬其頓語數據進行雙倍採樣，平衡兩種語言的訓練

高質量訓練數據

嚴格篩選.bg和.mk域數據，避免低質量機器翻譯內容

Model Capabilities

詞性標註（UPOS/XPOS）

命名實體識別（NER）

常識推理（COPA）

保加利亞語文本處理

馬其頓語文本處理

Use Cases

語言分析

保加利亞語詞性標註

對保加利亞語文本進行詞性標註

測試集準確率達99.5%（UPOS）

馬其頓語命名實體識別

識別馬其頓語文本中的命名實體

測試集F1值達96.3%

語言理解

常識推理任務

解決保加利亞語和馬其頓語的COPA常識推理問題

準確率分別達54.6%和55.6%

🚀 XLMR-BERTovski模型

XLMR-BERTovski 是一個大型預訓練語言模型，在保加利亞語和馬其頓語文本上進行訓練。它基於 XLM-RoBERTa-large 模型繼續訓練而來，是 MaCoCu 項目的一部分。主要開發者是來自格羅寧根大學的 Rik van Noord。該模型支持保加利亞語（bg）、馬其頓語（mk）以及多語言（multilingual）。

🚀 快速開始

以下是使用 XLMR-BERTovski 模型的示例代碼：

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski") # Tensorflow

✨ 主要特性

語言支持：支持保加利亞語和馬其頓語，適用於處理這兩種語言的相關任務。
預訓練基礎：基於強大的 XLM-RoBERTa-large 模型繼續訓練，繼承了其優秀的語言理解能力。
大規模數據訓練：使用 74GB 的保加利亞語和馬其頓語文本進行訓練，約 70 多億個標記，保證了模型的泛化能力。

📦 安裝指南

暫未提及具體安裝步驟，你可以參考 Hugging Face 相關文檔進行模型的安裝和使用。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski") # Tensorflow

📚 詳細文檔

模型描述

XLMR-BERTovski 在 74GB 的保加利亞語和馬其頓語文本上進行訓練，約 70 多億個標記。訓練進行了 67,500 步，批次大小為 1,024，約 2.5 個週期。它使用與原始 XLMR-large 模型相同的詞彙表。該模型與 BERTovski 使用相同的數據進行訓練，但本模型使用 RoBERTa 架構從頭開始訓練。訓練和微調過程的詳細信息可在 Github 倉庫中查看。

數據

訓練時使用了 MaCoCu、Oscar、mc4 和維基百科語料庫中的所有保加利亞語和馬其頓語數據。在手動分析中發現，對於 Oscar 和 mc4 語料庫，如果數據不是來自相應的域名（.bg 或 .mk），則通常是（質量較差的）機器翻譯數據。因此，僅使用了最初來自 .bg 或 .mk 域名的數據。去重後，共有 54.5GB 的保加利亞語文本和 9GB 的馬其頓語文本。由於保加利亞語數據較多，訓練時將馬其頓語數據簡單翻倍。

基準性能

在 XPOS、UPOS 和 NER 基準測試中對 XLMR-BERTovski 的性能進行了測試。對於保加利亞語，使用了通用依存關係項目的數據；對於馬其頓語，使用了 babushka-bench 項目中創建的數據集。還在 COPA 數據集的谷歌（保加利亞語）和人工（馬其頓語）翻譯版本上進行了測試（詳細信息見 Github 倉庫）。將其性能與 BERTovski 以及強大的多語言模型 XLMR-base 和 XLMR-large 進行了比較。關於微調過程的詳細信息，可查看 Github。

保加利亞語

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	99.2	99.4	98.0	98.3	93.2	92.9	56.9
XLM-R-large	99.3	99.4	97.4	97.7	93.7	93.5	53.1
BERTovski	98.8	99.1	97.6	97.8	93.5	93.3	51.7
XLMR-BERTovski	99.3	99.5	98.5	98.8	94.4	94.3	54.6

馬其頓語

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	98.3	98.6	97.3	97.1	92.8	94.8	55.3
XLM-R-large	98.3	98.7	97.7	97.5	93.3	95.1	52.5
BERTovski	97.8	98.1	96.4	96.0	92.8	94.6	51.8
XLMR-BERTovski	98.6	98.8	98.0	97.7	94.4	96.3	55.6

致謝

本研究得到了谷歌 TPU 研究雲（TRC）的 Cloud TPU 支持。作者獲得了歐盟連接歐洲設施 2014 - 2020 - CEF 電信的資助，資助協議編號為 INEA/CEF/ICT/A2020/2278341（MaCoCu）。

引用

如果使用此模型，請引用以下論文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}