pos-englishオープンソース英語品詞タグ付けモデル - データセットに基づいて訓練され、高い正解率でタグ付けを完了します

ホーム

Pos English

flairによって開発

Flairに標準搭載されている英語標準品詞タグ付けモデルで、Ontonotesデータセットで訓練され、F1スコアは98.19です。

シーケンスラベリング

PyTorch

英語#細粒度品詞タグ付け #高精度F1-98.19 #Flair埋め込み+LSTM-CRF

ダウンロード数 24.83k

リリース時間 : 3/2/2022

モデル概要

このモデルは英語テキストの品詞タグ付けに使用され、細粒度の品詞タグを予測できます。

モデル特徴

高精度品詞タグ付け

Ontonotesデータセットで98.19のF1スコアを達成し、優れた性能を発揮します。

細粒度タグ

動詞の時制や名詞の単数形・複数形など、さまざまな細粒度の品詞タグをサポートしています。

Flair埋め込みベース

Flairのコンテキスト文字列埋め込みを使用しており、単語の文脈情報を捉えることができます。

モデル能力

英語品詞タグ付け

細粒度品詞タグ予測

使用事例

自然言語処理

テキスト分析

英語テキストの品詞構造を分析し、文法解析や意味理解を支援します。

各単語の品詞（動詞、名詞、形容詞など）を正確にタグ付けします。

言語学習ツール

言語学習アプリに統合して、学習者が文構造を理解するのを支援します。

詳細な品詞タグ付けを提供し、文法学習を補助します。

🚀 Flairによる英語の品詞タグ付け (デフォルトモデル)

これは、Flair とともに提供される英語の標準的な品詞タグ付けモデルです。

F1スコア: 98,19 (Ontonotes)

細粒度の品詞タグを予測します:

タグ	意味
ADD	メール
AFX	接辞
CC	接続詞
CD	基数
DT	限定詞
EX	存在を表す「there」
FW	外来語
HYPH	ハイフン
IN	前置詞または従属接続詞
JJ	形容詞
JJR	形容詞の比較級
JJS	形容詞の最上級
LS	リスト項目マーカー
MD	助動詞
NFP	余分な句読点
NN	名詞（単数または集合）
NNP	固有名詞（単数）
NNPS	固有名詞（複数）
NNS	名詞（複数）
PDT	前限定詞
POS	所有格の語尾
PRP	人称代名詞
PRP$	所有代名詞
RB	副詞
RBR	副詞の比較級
RBS	副詞の最上級
RP	小品詞
SYM	記号
TO	「to」
UH	感嘆詞
VB	動詞の原形
VBD	動詞の過去形
VBG	動詞の動名詞または現在分詞
VBN	動詞の過去分詞
VBP	動詞の非第三人称単数現在形
VBZ	動詞の第三人称単数現在形
WDT	疑問限定詞
WP	疑問代名詞
WP$	所有疑問代名詞
WRB	疑問副詞
XX	不明

このモデルは Flair埋め込みとLSTM-CRFに基づいています。

🚀 クイックスタート

デモ: Flairでの使用方法

必要条件: Flair (pip install flair)

基本的な使用法

from flair.data import Sentence
from flair.models import SequenceTagger

# load tagger
tagger = SequenceTagger.load("flair/pos-english")

# make example sentence
sentence = Sentence("I love Berlin.")

# predict NER tags
tagger.predict(sentence)

# print sentence
print(sentence)

# print predicted NER spans
print('The following NER tags are found:')
# iterate over entities and print
for entity in sentence.get_spans('pos'):
    print(entity)

これにより、以下の出力が得られます:

Span [1]: "I"   [− Labels: PRP (1.0)]
Span [2]: "love"   [− Labels: VBP (1.0)]
Span [3]: "Berlin"   [− Labels: NNP (0.9999)]
Span [4]: "."   [− Labels: . (1.0)]

したがって、文「I love Berlin」では、「I」は代名詞 (PRP)、「love」は動詞 (VBP)、「Berlin」は固有名詞 (NNP) としてラベル付けされます。

トレーニング: このモデルをトレーニングするスクリプト

このモデルのトレーニングには、以下のFlairスクリプトが使用されました:

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. load the corpus (Ontonotes does not ship with Flair, you need to download and reformat into a column format yourself)
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. what tag do we want to predict?
tag_type = 'pos'

# 3. make the tag dictionary from the corpus
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. initialize each embedding we use
embedding_types = [

    # contextual string embeddings, forward
    FlairEmbeddings('news-forward'),

    # contextual string embeddings, backward
    FlairEmbeddings('news-backward'),
]

# embedding stack consists of Flair and GloVe embeddings
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. initialize sequence tagger
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. initialize trainer
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. run training
trainer.train('resources/taggers/pos-english',
              train_with_dev=True,
              max_epochs=150)

📚 ドキュメント

引用

このモデルを使用する際には、以下の論文を引用してください。

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}