xlm-roberta-base-ft-udpos28-caオープンソース多言語品詞タグ付けモデル

ホーム

Xlm Roberta Base Ft Udpos28 Ca

wietsedvによって開発

XLM-RoBERTaベースの多言語品詞タグ付けモデル、カタルーニャ語など複数言語をサポート

シーケンスラベリング

Transformers

その他オープンソースライセンス:Apache-2.0 #多言語品詞タグ付け #高精度 #カタルーニャ語最適化

ダウンロード数 24

リリース時間 : 3/2/2022

モデル概要

このモデルはXLM-RoBERTaアーキテクチャに基づく多言語品詞タグ付けモデルで、特にカタルーニャ語に最適化されており、テキスト内の単語の品詞カテゴリを正確に識別できます。

モデル特徴

多言語サポート

XLM-RoBERTaアーキテクチャに基づき、強力な言語間転移能力を備えています

高精度

カタルーニャ語の品詞タグ付けタスクで98.7%の精度を達成

Universal Dependencies互換

Universal Dependencies v2.8データセットでトレーニング

モデル能力

品詞タグ付け

多言語テキスト処理

文法解析

使用事例

自然言語処理

テキスト前処理

下流NLPタスクのための品詞タグ付け前処理を提供

後続の文法解析、固有表現認識などのタスク精度向上に寄与

言語学研究

言語学研究や文法解析に利用

研究者がカタルーニャ語の文法構造を分析するのに役立つ

🚀 XLM-RoBERTa base Universal Dependencies v2.8 品詞タグ付け: カタルーニャ語

このモデルは、以下の論文の一部です。

Make the Best of Cross-lingual Transfer: Evidence from POS Tagging with over 100 Languages

詳細については、Spaceを確認してください。

🚀 クイックスタート

このモデルは、カタルーニャ語の品詞タグ付けに特化したXLM - RoBERTaベースのモデルです。以下のコードを使って簡単に使用できます。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-ca")
model = AutoModelForTokenClassification.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-ca")

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	XLM - RoBERTa base
学習データ	Universal Dependencies v2.8
タスク	トークン分類（品詞タグ付け）

評価指標

このモデルは、複数の言語での品詞タグ付けタスクにおいて評価されています。以下は、各言語での正解率です。

言語	正解率
英語	86.3
オランダ語	87.2
ドイツ語	79.2
イタリア語	90.2
フランス語	90.7
スペイン語	94.8
ロシア語	89.1
スウェーデン語	89.5
ノルウェー語	84.7
デンマーク語	89.3
ロー・ザクセン語	53.3
アッカド語	41.0
アルメニア語	84.7
ウェールズ語	66.0
古東スラブ語	77.4
アルバニア語	79.2
スロベニア語	79.1
グアヤジャラ語	32.9
クルディ語（クルマンジ方言）	78.2
トルコ語	76.2
フィンランド語	84.7
インドネシア語	84.5
ウクライナ語	87.5
ポーランド語	87.4
ポルトガル語	91.4
カザフ語	80.6
ラテン語	79.3
古フランス語	66.5
ブリヤート語	62.8
カーポール語	27.5
韓国語	61.6
エストニア語	87.2
クロアチア語	88.8
ゴート語	29.1
スイス・ドイツ語	42.1
アッシリア語	17.2
北サーミ語	41.0
ナイジャ語	40.3
ラトビア語	85.0
中国語	32.3
タガログ語	72.5
バンバラ語	29.8
リトアニア語	84.1
ガリシア語	88.8
ベトナム語	65.2
ギリシャ語	85.9
カタルーニャ語	98.7
チェコ語	89.3
エルジャ語	50.9
ボージュプリ語	49.7
タイ語	43.4
マラーティー語	82.2
バスク語	74.9
スロバキア語	89.6
キチェ語	39.2
ヨルバ語	28.8
ワールピリ語	36.4
タミル語	82.2
マルタ語	36.2
古代ギリシャ語	62.0
アイスランド語	83.2
ムビャ・グアラニ語	32.6
ウルドゥー語	65.2
ルーマニア語	84.8
ペルシャ語	76.7
アプリナ語	37.3
日本語	19.9
ハンガリー語	87.2
ヒンディー語	68.8
古典中国語	19.2
コミ・ペルミャク語	52.6
フェロー語	76.4
サンスクリット語	38.4
リヴヴィ語	64.0
アラビア語	79.2
ウォロフ語	38.2
ブルガリア語	89.9
アクンツ語	43.4
マクララ語	23.3
カングリ語	44.9
ブルトン語	63.5
テルグ語	85.0
広東語	40.5
古教会スラブ語	57.8
カレリア語	73.3
上ソルビア語	75.8
南レバント・アラビア語	64.0
コミ・ジリャン語	44.2
アイルランド語	67.2
ナイニ語	50.0
ムンドゥルク語	28.8
マンクス語	35.3
スコルト・サーミ語	41.3
アフリカーンス語	86.0
古トルコ語	45.7
トゥピンアンバ語	36.6
ベラルーシ語	86.0
セルビア語	90.4
モクシャ語	47.7
西アルメニア語	78.7
スコットランド・ゲール語	54.8
クンサリ語	47.3
ヘブライ語	91.7
ウイグル語	75.4
チュクチ語	34.9