robertuito-posオープンソース品詞タグ付けモデル - ツイッターのスペイン語/英語テキストを無料で正確にタグ付け

Home

Robertuito Pos

Developed by pysentimiento

RoBERTuitoに基づくスペイン語/英語の品詞タグ付けモデル。ツイッターテキスト用に最適化されています。

シーケンスラベリング

Transformers

Spanish#スペイン語の品詞タグ付け #ツイッターテキスト処理 #コード変換タスク

Downloads 188

Release Time : 7/17/2022

Model Overview

このモデルは、スペイン語のツイートに対する品詞タグ付けタスク用の専用モデルで、RoBERTuitoアーキテクチャに基づいて訓練され、スペイン語と英語の混合テキストの品詞分析をサポートします。

Model Features

ツイッターテキスト最適化

ソーシャルメディア（ツイッター）のテキストに特化して訓練され、非公式な言語やネット用語を効果的に処理できます。

バイリンガル対応

スペイン語と英語の混合テキストの品詞タグ付けをサポートします。

高性能

LinCEベンチマークテストで97.2の品詞タグ付け精度を達成しました。

Model Capabilities

品詞タグ付け

ソーシャルメディアテキスト処理

バイリンガル混合テキスト分析

Use Cases

ソーシャルメディア分析

ツイッター内容分析

スペイン語のツイートに品詞タグ付けを行い、後続の感情分析や内容分類をサポートします。

非公式なテキスト中の品詞を正確に識別できます。

言語学研究

コード変換研究

スペイン語/英語の混合テキストの言語特徴を分析します。

正確な品詞タグ付けのサポートを提供します。

🚀 スペイン語/英語用の品詞タグ付けモデル

このモデルは、スペイン語と英語の品詞タグ付けを行うためのモデルです。Twitterデータを用いて学習されており、スペイン語と英語の混合文に対しても高い性能を発揮します。

🚀 クイックスタート

リポジトリ: https://github.com/pysentimiento/pysentimiento/

このモデルは、LinCE NERコーパスのスペイン語/英語分割データを用いて学習されています。このコーパスは、コードスイッチングを含むベンチマークデータです。ベースモデルはRoBERTuitoで、スペイン語のツイートを用いて学習されたRoBERTaモデルです。

✨ 主な機能

スペイン語と英語の混合文に対する品詞タグ付けが可能
Twitterデータを用いて学習されているため、SNS上の自然な表現にも対応

📦 インストール

このモデルを使用するには、pysentimientoライブラリを使用することをおすすめします。トークン化の問題により、パイプラインでは適切に動作しない場合があります。

💻 使用例

基本的な使用法

from pysentimiento import create_analyzer

pos_analyzer = create_analyzer("pos", lang="es")

pos_analyzer.predict("Quiero que esto funcione correctamente! @perezjotaeme")
 
 
>[{'type': 'PROPN', 'text': 'Quiero', 'start': 0, 'end': 6},
> {'type': 'SCONJ', 'text': 'que', 'start': 7, 'end': 10},
> {'type': 'PRON', 'text': 'esto', 'start': 11, 'end': 15},
> {'type': 'VERB', 'text': 'funcione', 'start': 16, 'end': 24},
> {'type': 'ADV', 'text': 'correctamente', 'start': 25, 'end': 38},
> {'type': 'PUNCT', 'text': '!', 'start': 38, 'end': 39},
> {'type': 'NOUN', 'text': '@perezjotaeme', 'start': 40, 'end': 53}]

📚 ドキュメント

結果

結果は、LinCEのリーダーボードから取得されています。

モデル	センチメント分析	固有表現抽出	品詞タグ付け
RoBERTuito	60.6	68.5	97.2
XLM Large	--	69.5	97.2
XLM Base	--	64.9	97.0
C2S mBERT	59.1	64.6	96.9
mBERT	56.4	64.0	97.1
BERT	58.4	61.1	96.9
BETO	56.5	--	--

📄 ライセンス

このモデルを研究で使用する場合は、pysentimiento、RoBERTuito、LinCEの論文を引用してください。

@misc{perez2021pysentimiento,
      title={pysentimiento: A Python Toolkit for Sentiment Analysis and SocialNLP tasks},
      author={Juan Manuel PÃ©rez and Juan Carlos Giudici and Franco Luque},
      year={2021},
      eprint={2106.09462},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@inproceedings{ortega2019overview,
  title={Overview of the task on irony detection in Spanish variants},
  author={Ortega-Bueno, Reynier and Rangel, Francisco and Hern{\'a}ndez Far{\i}as, D and Rosso, Paolo and Montes-y-G{\'o}mez, Manuel and Medina Pagola, Jos{\'e} E},
  booktitle={Proceedings of the Iberian languages evaluation forum (IberLEF 2019), co-located with 34th conference of the Spanish Society for natural language processing (SEPLN 2019). CEUR-WS. org},
  volume={2421},
  pages={229--256},
  year={2019}
}

@inproceedings{aguilar2020lince,
  title={LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation},
  author={Aguilar, Gustavo and Kar, Sudipta and Solorio, Thamar},
  booktitle={Proceedings of the 12th Language Resources and Evaluation Conference},
  pages={1803--1813},
  year={2020}
}