xlm-roberta-base-ft-udpos28-orvオープンソースモデル - 古東スラブ語をサポートする多言語品詞タグ付け

ホーム

Xlm Roberta Base Ft Udpos28 Orv

wietsedvによって開発

XLM-RoBERTaベースの多言語品詞タグ付けモデルで、古東スラヴ語など複数言語の品詞タグ付けタスクをサポートします。

シーケンスラベリング

Transformers

その他オープンソースライセンス:Apache-2.0 #多言語品詞タグ付け #古東スラヴ語最適化 #ユニバーサル依存関係解析

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはXLM-RoBERTaアーキテクチャを基にした多言語品詞タグ付けモデルで、ユニバーサル依存関係v2.8データセットで特に調整されており、古東スラヴ語で優れた性能を発揮します。

モデル特徴

多言語サポート

古東スラヴ語を含む複数言語の品詞タグ付けをサポート

高精度

古東スラヴ語テストセットで91.0%の精度を達成

ユニバーサル依存関係データセットベース

ユニバーサル依存関係v2.8データセットを使用してトレーニングと評価を実施

モデル能力

品詞タグ付け

多言語テキスト処理

トークン分類

使用事例

言語学分析

古東スラヴ語テキスト分析

古東スラヴ語テキストの品詞タグ付け

精度91.0%を達成

多言語テキスト処理

複数言語の品詞タグ付けタスクを処理

60以上の言語の品詞タグ付けをサポート

🚀 XLM-RoBERTaベースのUniversal Dependencies v2.8品詞タグ付け：古東スラブ語

このモデルは、以下の論文の一部です。

Make the Best of Cross-lingual Transfer: Evidence from POS Tagging with over 100 Languages

詳細については、Spaceを確認してください。

🚀 クイックスタート

このモデルは、多言語の品詞タグ付けに使用できます。以下のコードを使って、モデルを簡単に利用することができます。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-orv")
model = AutoModelForTokenClassification.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-orv")

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	xlm-roberta-base-ft-udpos28-orv
タスクタイプ	トークン分類（品詞タグ付け）
データセット	Universal Dependencies v2.8
評価指標	正解率

各言語の正解率

言語	正解率
英語	79.4
オランダ語	77.8
ドイツ語	79.3
イタリア語	77.5
フランス語	75.2
スペイン語	77.2
ロシア語	87.9
スウェーデン語	83.0
ノルウェー語	78.6
デンマーク語	82.9
ロー・ザクセン語	58.9
アッカド語	41.8
アルメニア語	82.7
ウェールズ語	64.3
古東スラブ語	91.0
アルバニア語	73.4
スロベニア語	73.8
グアヤジャラ語	41.7
クルド語（クルマンジ方言）	76.7
トルコ語	73.5
フィンランド語	83.0
インドネシア語	78.9
ウクライナ語	86.7
ポーランド語	85.5
ポルトガル語	79.5
カザフ語	79.7
ラテン語	80.9
古フランス語	60.5
ブリヤート語	59.8
カーポール語	27.1
韓国語	61.0
エストニア語	83.9
クロアチア語	84.7
ゴート語	33.1
スイス・ドイツ語	53.5
アッシリア語	15.7
北サーミ語	39.9
ナイジャ語	41.9
ラトビア語	85.7
中国語	42.7
タガログ語	73.5
バンバラ語	29.5
リトアニア語	86.1
ガリシア語	77.7
ベトナム語	64.8
ギリシャ語	73.8
カタルーニャ語	74.2
チェコ語	85.0
エルジャ語	46.1
ボージュプリ語	56.8
タイ語	60.6
マラーティー語	84.0
バスク語	77.2
スロバキア語	84.3
キチェ語	35.3
ヨルバ語	29.9
ワールピリ語	33.6
タミル語	84.3
マルタ語	32.0
古代ギリシャ語	65.7
アイスランド語	81.6
ムビャ・グアラニ語	33.2
ウルドゥー語	66.2
ルーマニア語	80.9
ペルシア語	74.6
アプリナ語	44.6
日本語	35.7
ハンガリー語	73.3
ヒンディー語	75.3
古典中国語	41.5
コミ・ペルミャク語	49.0
フェロー語	78.3
サンスクリット語	43.3
リヴヴィ語	70.2
アラビア語	79.8
ウォロフ語	39.8
ブルガリア語	85.8
アクンツ語	36.5
マクラパ語	14.4
カングリ語	52.0
ブルトン語	58.1
テルグ語	79.9
広東語	50.8
古教会スラブ語	78.2
カレリア語	73.5
上ソルブ語	76.0
南レバント・アラビア語	70.0
コミ・ジュリアン語	43.1
アイルランド語	61.1
ナイニ語	53.8
ムンドゥルク語	26.4
マンクス語	44.6
スコルト・サーミ語	45.2
アフリカーンス語	76.9
古トルコ語	2.7
トゥピンアンバ語	39.0
ベラルーシ語	89.5
セルビア語	85.1
モクシャ語	42.8
西アルメニア語	77.0
スコットランド・ゲール語	51.6
クンサリ語	54.1
ヘブライ語	85.4
ウイグル語	74.4
チュクチ語	34.5