roberta-large-wechsel-ukrainianオープンソースモデル - ウクライナ語のNERと品詞タグ付けに最適

Roberta Large Wechsel Ukrainian

benjaminによって開発

WECHSEL手法を用いてウクライナ語に転移したRoBERTa-largeモデルで、NERと品詞タグ付けタスクで優れた性能を発揮

ダウンロード数 75

リリース時間 : 4/3/2022

モデル概要

このモデルはWECHSEL手法によってRoBERTa-largeモデルをウクライナ語に転移したバージョンで、ウクライナ語の自然言語処理タスク向けに最適化されており、特に固有表現認識(NER)と品詞タグ付けタスクで優れた性能を示します。

クロスリンガル転移最適化

WECHSEL手法を用いた効果的なサブワード埋め込み初期化により、英語からウクライナ語への効率的なモデル転移を実現

高性能

ウクライナ語NERと品詞タグ付けタスクで、ゼロから訓練したウクライナ語モデルやXLM-RoBERTaなどのクロスリンガルモデルを含む同類モデルを上回る性能

安定した性能

複数のランダムシード実行結果が示すように、モデル性能は安定しており、標準偏差が小さい

ウクライナ語テキスト理解

固有表現認識

品詞タグ付け

テキスト分析

ウクライナ語固有表現認識

ウクライナ語テキスト中の人名、地名、組織名などのエンティティを識別

lang-uk NERテストセットで91.24 F1スコアを達成

ウクライナ語品詞タグ付け

ウクライナ語テキストの各単語に品詞タグを付与

UD Ukrainian IUテストセットで98.74%の精度を達成

言語研究

ウクライナ語言語学研究

ウクライナ語の文法分析と言語特徴研究をサポート

評価は、lang-ukのner-ukプロジェクト、WikiANN のウクライナ語部分、および Universal Dependenciesプロジェクトのウクライナ語IUコーパスを用いて行われました。評価結果は、異なるシードを用いた5回の実行結果の平均です。

モデル名	lang-uk NER (Micro F1)	WikiANN (Micro F1)	UDウクライナ語IU POS (Accuracy)
roberta-base-wechsel-ukrainian	88.06 (0.50)	92.96 (0.08)	98.70 (0.05)
roberta-large-wechsel-ukrainian	89.27 (0.53)	93.22 (0.15)	98.86 (0.03)
roberta-base-scratch-ukrainian*	85.49 (0.88)	91.91 (0.08)	98.49 (0.04)
roberta-large-scratch-ukrainian*	86.54 (0.70)	92.39 (0.16)	98.65 (0.09)
dbmdz/electra-base-ukrainian-cased-discriminator	87.49 (0.52)	93.20 (0.16)	98.60 (0.03)
xlm-roberta-base	86.68 (0.44)	92.41 (0.13)	98.53 (0.02)
xlm-roberta-large	86.64 (1.61)	93.01 (0.13)	98.71 (0.04)

モデル名	lang-uk NER (Micro F1)	WikiANN (Micro F1)	UDウクライナ語IU POS (Accuracy)
roberta-base-wechsel-ukrainian	90.81 (1.51)	92.98 (0.12)	98.57 (0.03)
roberta-large-wechsel-ukrainian	91.24 (1.16)	93.22 (0.17)	98.74 (0.06)
roberta-base-scratch-ukrainian*	89.57 (1.01)	92.05 (0.09)	98.31 (0.08)
roberta-large-scratch-ukrainian*	89.96 (0.89)	92.49 (0.15)	98.52 (0.04)
dbmdz/electra-base-ukrainian-cased-discriminator	90.43 (1.29)	92.99 (0.11)	98.59 (0.06)
xlm-roberta-base	90.86 (0.81)	92.27 (0.09)	98.45 (0.07)
xlm-roberta-large	90.16 (2.98)	92.92 (0.19)	98.71 (0.04)