BERTovski開源語言模型 - 基於保語和馬語訓練助力文本處理應用

首頁

Bertovski

由MaCoCu開發

BERTovski是基於保加利亞語和馬其頓語文本訓練的大型預訓練語言模型，採用RoBERTa架構，是MaCoCu項目的成果。

大型語言模型其他#保加利亞語-馬其頓語專用 #RoBERTa架構優化 #低資源語言處理

下載量 28

發布時間 : 8/11/2022

模型概述

BERTovski是一個專注於保加利亞語和馬其頓語的自然語言處理模型，適用於多種語言任務，如詞性標註、命名實體識別等。

模型特點

多語言支持

專注於保加利亞語和馬其頓語，同時支持多語言處理任務。

高質量訓練數據

訓練數據經過嚴格篩選，僅包含原始.bg/.mk域的高質量文本，避免低質量機翻內容。

平衡數據分佈

通過複製馬其頓語數據平衡語料比例，確保兩種語言在模型中的均衡表現。

模型能力

詞性標註

命名實體識別

常識推理

文本理解

使用案例

自然語言處理

保加利亞語詞性標註

在Universal Dependencies數據集上進行詞性標註任務。

測試集準確率99.1%

馬其頓語命名實體識別

在babushka-bench數據集上進行命名實體識別。

測試集準確率94.6%

語言理解

常識推理

在COPA測試集上進行常識推理任務。

保加利亞語51.7%，馬其頓語51.8%

🚀 BERTovski大預訓練語言模型

BERTovski 是一個基於保加利亞語和馬其頓語文本訓練的大型預訓練語言模型。它採用RoBERTa架構從頭開始訓練，是 MaCoCu 項目的一部分。主要開發者是來自格羅寧根大學的 Rik van Noord。該模型在74GB文本（約70多億個標記）上進行了訓練，訓練步數為300,000，批次大小為2,048，約30個輪次。

🚀 快速開始

模型使用

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/BERTovski") # Tensorflow

訓練和微調

訓練和微調的具體步驟可查看 Github倉庫。我們計劃對該模型進行更長時間的訓練，敬請關注新版本！

✨ 主要特性

多語言支持：支持保加利亞語（bg）、馬其頓語（mk）等多語言。
大規模訓練：在74GB文本上進行訓練，約70多億個標記。
架構先進：採用RoBERTa架構從頭開始訓練。

📦 安裝指南

暫未提及具體安裝步驟，可參考模型使用部分的代碼示例。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/BERTovski") # Tensorflow

📚 詳細文檔

數據使用

訓練數據來自 MaCoCu、Oscar、mc4 和維基百科語料庫中的保加利亞語和馬其頓語數據。在手動分析中發現，Oscar和mc4中非對應域名（.bg或.mk）的數據常為機器翻譯且質量不佳，因此僅使用來自.bg或.mk域名的原始數據。去重後，共有54.5GB保加利亞語文本和9GB馬其頓語文本。由於保加利亞語數據較多，訓練時將馬其頓語數據翻倍。在保加利亞語/馬其頓語比例為50/50的子集上訓練了一個包含32,000個詞片的共享詞彙表。

基準測試

在XPOS、UPOS和NER基準測試中對BERTovski進行了性能測試。保加利亞語使用 Universal Dependencies 項目的數據，馬其頓語使用 babushka-bench 項目創建的數據集。還在谷歌翻譯（保加利亞語）和人工翻譯（馬其頓語）的COPA數據集上進行了測試（詳情見 Github倉庫）。將性能與多語言模型XLMR-base和XLMR-large進行了比較。微調步驟詳情可查看 Github。

保加利亞語測試結果

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	99.2	99.4	98.0	98.3	93.2	92.9	56.9
XLM-R-large	99.3	99.4	97.4	97.7	93.7	93.5	53.1
BERTovski	98.8	99.1	97.6	97.8	93.5	93.3	51.7

馬其頓語測試結果

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	98.3	98.6	97.3	97.1	92.8	94.8	55.3
XLM-R-large	98.3	98.7	97.7	97.5	93.3	95.1	52.5
BERTovski	97.8	98.1	96.4	96.0	92.8	94.6	51.8

致謝

本研究得到了谷歌TPU研究雲（TRC）的Cloud TPU支持。作者獲得了歐盟連接歐洲設施2014 - 2020 - CEF電信項目的資助，資助協議編號為INEA/CEF/ICT/A2020/2278341（MaCoCu）。

引用

如果使用該模型，請引用以下論文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}