X

XLMR BERTovski

MaCoCuによって開発
ブルガリア語とマケドニア語のテキストを用いた大規模事前学習言語モデルで、MaCoCuプロジェクトの一部
ダウンロード数 36
リリース時間 : 8/11/2022

モデル概要

XLMR-BERTovskiはXLM-RoBERTa-largeを基にブルガリア語とマケドニア語で継続学習した言語モデルで、自然言語処理タスクに主に使用されます

モデル特徴

大規模二言語事前学習
74GBのブルガリア語とマケドニア語テキストで訓練され、70億以上のトークンを含む
最適化されたデータサンプリング
データ量が少ないマケドニア語データを2倍サンプリングし、両言語の訓練バランスを調整
高品質な訓練データ
.bgと.mkドメインのデータを厳選し、低品質な機械翻訳コンテンツを排除

モデル能力

品詞タグ付け(UPOS/XPOS)
固有表現認識(NER)
常識推論(COPA)
ブルガリア語テキスト処理
マケドニア語テキスト処理

使用事例

言語分析
ブルガリア語品詞タグ付け
ブルガリア語テキストの品詞タグ付け
テストセットで99.5%の精度(UPOS)
マケドニア語固有表現認識
マケドニア語テキストの固有表現を識別
テストセットでF1値96.3%
言語理解
常識推論タスク
ブルガリア語とマケドニア語のCOPA常識推論問題を解決
精度はそれぞれ54.6%と55.6%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase