xlm - roberta - base - ft - udpos28 - enオープンソース多言語品詞タグ付けモデル、多言語の品詞を正確に識別する

ホーム

Xlm Roberta Base Ft Udpos28 En

wietsedvによって開発

このモデルはXLM-RoBERTaアーキテクチャに基づく多言語品詞タグ付けモデルで、ユニバーサル依存関係v2.8データセットでファインチューニングされています。

シーケンスラベリング

Transformers

英語オープンソースライセンス:Apache-2.0 #多言語品詞タグ付け #高精度 #ユニバーサル依存関係解析

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

これは品詞タグ付けタスクのためのトークン分類モデルで、複数の言語をサポートし、英語で最高の性能（精度96%）を発揮します。

モデル特徴

多言語サポート

100以上の言語の品詞タグ付けタスクをサポート

高精度

英語テストセットで96%の精度を達成

ユニバーサル依存関係データセットに基づく

ユニバーサル依存関係v2.8データセットを使用してトレーニング

モデル能力

品詞タグ付け

多言語テキスト処理

トークン分類

使用事例

自然言語処理

多言語テキスト分析

多言語テキストの品詞タグ付けを行い、文法解析をサポート

英語の精度96%、その他の言語の精度は90%から20%まで様々

言語学研究

異なる言語の文法構造を比較するために使用

🚀 XLM-RoBERTaベースのUniversal Dependencies v2.8品詞タグ付け: 英語

このモデルは、以下の論文の一部です。

Make the Best of Cross-lingual Transfer: Evidence from POS Tagging with over 100 Languages

詳細については、スペースを確認してください。

🚀 クイックスタート

このセクションでは、モデルの基本的な使い方を説明します。

✨ 主な機能

品詞タグ付け（Part-of-Speech Tagging）に対応しています。
100以上の言語に対応したクロス言語転移学習が可能です。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-en")
model = AutoModelForTokenClassification.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-en")

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	XLM-RoBERTaベースの品詞タグ付けモデル
学習データ	Universal Dependencies v2.8

評価指標

以下は、様々な言語に対する精度（accuracy）の結果です。

言語	精度
英語	96.0
オランダ語	90.4
ドイツ語	88.6
イタリア語	87.8
フランス語	87.4
スペイン語	90.3
ロシア語	91.0
スウェーデン語	94.0
ノルウェー語	89.6
デンマーク語	91.6
ローサクソン語	57.4
アッカド語	26.4
アルメニア語	88.5
ウェールズ語	70.6
古東スラブ語	76.5
アルバニア語	82.3
スロベニア語	79.0
グアジャラ語	17.2
クルディ語（クルマンジ方言）	76.9
トルコ語	79.1
フィンランド語	87.2
インドネシア語	86.9
ウクライナ語	87.6
ポーランド語	87.2
ポルトガル語	90.0
カザフ語	82.5
ラテン語	79.6
古フランス語	53.4
ブリヤート語	58.8
カーポール語	9.2
韓国語	64.0
エストニア語	88.4
クロアチア語	87.9
ゴート語	20.5
スイスドイツ語	47.6
アッシリア語	14.6
北サーミ語	32.0
ナイジャ語	47.5
ラトビア語	87.5
中国語	47.5
タガログ語	73.5
バンバラ語	27.7
リトアニア語	87.3
ガリシア語	87.1
ベトナム語	66.4
ギリシャ語	87.6
カタルーニャ語	89.7
チェコ語	88.1
エルジャ語	47.6
ボジュプリ語	50.7
タイ語	59.5
マラーティー語	82.2
バスク語	76.0
スロバキア語	88.5
キチェ語	25.4
ヨルバ語	18.5
ワールピリ語	29.1
タミル語	83.4
マルタ語	21.1
古代ギリシャ語	66.8
アイスランド語	84.8
ムビャ・グアラニ語	24.1
ウルドゥー語	67.0
ルーマニア語	85.7
ペルシャ語	76.7
アプリナ語	28.6
日本語	34.1
ハンガリー語	86.0
ヒンディー語	74.1
古典中国語	29.4
コミ・ペルミャク語	47.4
フェロー語	77.0
サンスクリット語	25.6
リヴヴィ語	63.2
アラビア語	80.7
ウォロフ語	26.1
ブルガリア語	90.8
アクンツ語	18.3
マクラプ語	5.5
カングリ語	43.0
ブルトン語	64.1
テルグ語	84.7
広東語	54.0
古教会スラブ語	53.7
カレリア語	69.7
上ソルブ語	75.6
南レバントアラビア語	66.3
コミ・ジリャン語	39.9
アイルランド語	67.0
ナイニ語	44.9
ムンドゥルク語	12.3
マンクス語	25.4
スコルト・サーミ語	29.9
アフリカーンス語	89.3
古トルコ語	37.1
トゥピンアンバ語	23.1
ベラルーシ語	89.1
セルビア語	88.4
モクシャ語	44.1
西アルメニア語	80.1
スコットランド・ゲール語	59.0
クンサリ語	43.2
ヘブライ語	90.6
ウイグル語	75.8
チュクチ語	32.6