X

XLMR BERTovski

由MaCoCu開發
基於保加利亞語和馬其頓語文本大規模預訓練的語言模型,是MaCoCu項目的一部分
下載量 36
發布時間 : 8/11/2022

模型概述

XLMR-BERTovski是一個基於XLM-RoBERTa-large繼續訓練的保加利亞語和馬其頓語語言模型,主要用於自然語言處理任務

模型特點

大規模雙語預訓練
在74GB的保加利亞語和馬其頓語文本上訓練,包含超過70億個標記
優化的數據採樣
對數據量較少的馬其頓語數據進行雙倍採樣,平衡兩種語言的訓練
高質量訓練數據
嚴格篩選.bg和.mk域數據,避免低質量機器翻譯內容

模型能力

詞性標註(UPOS/XPOS)
命名實體識別(NER)
常識推理(COPA)
保加利亞語文本處理
馬其頓語文本處理

使用案例

語言分析
保加利亞語詞性標註
對保加利亞語文本進行詞性標註
測試集準確率達99.5%(UPOS)
馬其頓語命名實體識別
識別馬其頓語文本中的命名實體
測試集F1值達96.3%
語言理解
常識推理任務
解決保加利亞語和馬其頓語的COPA常識推理問題
準確率分別達54.6%和55.6%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase