pos-english開源英語詞性標註模型 - 基於數據集訓練，高準確率完成標註

首頁

Pos English

由flair開發

Flair自帶的英語標準詞性標註模型，基於Ontonotes數據集訓練，F1分數為98.19。

序列標註

PyTorch

英語#細粒度詞性標註 #高精度F1-98.19 #Flair嵌入+LSTM-CRF

下載量 24.83k

發布時間 : 3/2/2022

模型概述

該模型用於英語文本的詞性標註，能夠預測細粒度的詞性標籤。

模型特點

高精度詞性標註

在Ontonotes數據集上達到98.19的F1分數，表現優異。

細粒度標籤

支持多種細粒度的詞性標籤，包括動詞時態、名詞單複數等。

基於Flair嵌入

使用Flair上下文字符串嵌入，能夠捕捉詞彙的上下文信息。

模型能力

英語詞性標註

細粒度詞性標籤預測

使用案例

自然語言處理

文本分析

用於分析英語文本的詞性結構，輔助語法分析和語義理解。

準確標註每個單詞的詞性，如動詞、名詞、形容詞等。

語言學習工具

集成到語言學習應用中，幫助學習者理解句子結構。

提供詳細的詞性標註，輔助語法學習。

🚀 Flair中的英文詞性標註（默認模型）

這是隨 Flair 一起發佈的英文標準詞性標註模型。它能夠有效解決英文文本中詞性標註的問題，為自然語言處理任務提供準確的詞性信息。

F1分數：98.19（Ontonotes數據集）

該模型可預測細粒度的詞性標籤：

標籤	含義
ADD	電子郵件
AFX	詞綴
CC	並列連詞
CD	基數詞
DT	限定詞
EX	存在句中的“there”
FW	外來詞
HYPH	連字符
IN	介詞或從屬連詞
JJ	形容詞
JJR	形容詞比較級
JJS	形容詞最高級
LS	列表項標記
MD	情態動詞
NFP	多餘的標點符號
NN	單數名詞或物質名詞
NNP	單數專有名詞
NNPS	複數專有名詞
NNS	複數名詞
PDT	前位限定詞
POS	所有格結尾
PRP	人稱代詞
PRP$	物主代詞
RB	副詞
RBR	副詞比較級
RBS	副詞最高級
RP	小品詞
SYM	符號
TO	“to”
UH	感嘆詞
VB	動詞原形
VBD	動詞過去式
VBG	動詞的動名詞或現在分詞
VBN	動詞過去分詞
VBP	非第三人稱單數現在時動詞
VBZ	第三人稱單數現在時動詞
WDT	疑問限定詞
WP	疑問代詞
WP$	所有格疑問代詞
WRB	疑問副詞
XX	未知

該模型基於 Flair嵌入和LSTM - CRF。

🚀 快速開始

安裝

本項目需要安裝 Flair，可以使用以下命令進行安裝：

pip install flair

使用示例

基礎用法

from flair.data import Sentence
from flair.models import SequenceTagger

# 加載標籤器
tagger = SequenceTagger.load("flair/pos-english")

# 創建示例句子
sentence = Sentence("I love Berlin.")

# 預測詞性標籤
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印預測的詞性標籤範圍
print('The following NER tags are found:')
# 遍歷實體並打印
for entity in sentence.get_spans('pos'):
    print(entity)

上述代碼會產生以下輸出：

Span [1]: "I"   [− Labels: PRP (1.0)]
Span [2]: "love"   [− Labels: VBP (1.0)]
Span [3]: "Berlin"   [− Labels: NNP (0.9999)]
Span [4]: "."   [− Labels: . (1.0)]

在句子 “I love Berlin” 中，單詞 “I” 被標記為代詞（PRP），“love” 被標記為動詞（VBP），“Berlin” 被標記為專有名詞（NNP）。

🔧 技術細節

訓練腳本

以下是用於訓練此模型的Flair腳本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加載語料庫（Ontonotes不隨Flair一起發佈，你需要自己下載並重新格式化為列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 我們要預測的標籤類型是什麼？
tag_type = 'pos'

# 3. 從語料庫中創建標籤字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化我們使用的每個嵌入
embedding_types = [

    # 上下文字符串嵌入，前向
    FlairEmbeddings('news-forward'),

    # 上下文字符串嵌入，後向
    FlairEmbeddings('news-backward'),
]

# 嵌入棧由Flair和GloVe嵌入組成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列標籤器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. 初始化訓練器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 運行訓練
trainer.train('resources/taggers/pos-english',
              train_with_dev=True,
              max_epochs=150)

📄 引用

使用此模型時，請引用以下論文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}