B

Bertovski

由MaCoCu開發
BERTovski是基於保加利亞語和馬其頓語文本訓練的大型預訓練語言模型,採用RoBERTa架構,是MaCoCu項目的成果。
下載量 28
發布時間 : 8/11/2022

模型概述

BERTovski是一個專注於保加利亞語和馬其頓語的自然語言處理模型,適用於多種語言任務,如詞性標註、命名實體識別等。

模型特點

多語言支持
專注於保加利亞語和馬其頓語,同時支持多語言處理任務。
高質量訓練數據
訓練數據經過嚴格篩選,僅包含原始.bg/.mk域的高質量文本,避免低質量機翻內容。
平衡數據分佈
通過複製馬其頓語數據平衡語料比例,確保兩種語言在模型中的均衡表現。

模型能力

詞性標註
命名實體識別
常識推理
文本理解

使用案例

自然語言處理
保加利亞語詞性標註
在Universal Dependencies數據集上進行詞性標註任務。
測試集準確率99.1%
馬其頓語命名實體識別
在babushka-bench數據集上進行命名實體識別。
測試集準確率94.6%
語言理解
常識推理
在COPA測試集上進行常識推理任務。
保加利亞語51.7%,馬其頓語51.8%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase