X

XLMR BERTovski

Developed by MaCoCu
基於保加利亞語和馬其頓語文本大規模預訓練的語言模型,是MaCoCu項目的一部分
Downloads 36
Release Time : 8/11/2022

Model Overview

XLMR-BERTovski是一個基於XLM-RoBERTa-large繼續訓練的保加利亞語和馬其頓語語言模型,主要用於自然語言處理任務

Model Features

大規模雙語預訓練
在74GB的保加利亞語和馬其頓語文本上訓練,包含超過70億個標記
優化的數據採樣
對數據量較少的馬其頓語數據進行雙倍採樣,平衡兩種語言的訓練
高質量訓練數據
嚴格篩選.bg和.mk域數據,避免低質量機器翻譯內容

Model Capabilities

詞性標註(UPOS/XPOS)
命名實體識別(NER)
常識推理(COPA)
保加利亞語文本處理
馬其頓語文本處理

Use Cases

語言分析
保加利亞語詞性標註
對保加利亞語文本進行詞性標註
測試集準確率達99.5%(UPOS)
馬其頓語命名實體識別
識別馬其頓語文本中的命名實體
測試集F1值達96.3%
語言理解
常識推理任務
解決保加利亞語和馬其頓語的COPA常識推理問題
準確率分別達54.6%和55.6%
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase