pos-english-fast开源英语词性标注模型 - 免费部署精准标注英文词性

首页

Pos English Fast

由 flair 开发

Flair自带的英语快速词性标注模型，基于Ontonotes数据集训练，F1分数达98.10。

序列标注

PyTorch

英语#细粒度词性标注 #高精度F1 #Ontonotes适配

下载量 3,760

发布时间 : 3/2/2022

模型简介

该模型用于英语文本的词性标注任务，能够预测细粒度的词性标签。

模型特点

高精度

在Ontonotes数据集上达到98.10的F1分数。

细粒度标注

支持超过40种细粒度的词性标签。

快速推理

作为快速模型，在保持高精度的同时优化了推理速度。

基于Flair嵌入

利用Flair的上下文字符串嵌入，捕捉单词的上下文信息。

模型能力

英语词性标注

细粒度词性识别

文本序列标注

使用案例

自然语言处理

文本预处理

为下游NLP任务（如命名实体识别、句法分析）提供词性标注。

提升下游任务性能

语言学习工具

用于英语学习工具中的语法分析功能。

帮助学习者理解句子结构

🚀 Flair英文词性标注（快速模型）

这是随 Flair 一起发布的英文快速词性标注模型。它能有效解决英文文本中词性标注的问题，为自然语言处理任务提供准确的词性信息，提升相关处理的效率和准确性。

✨ 主要特性

高准确率：在Ontonotes数据集上的F1分数达到了 98.10。
细粒度标签：能够预测细粒度的词性标签。
基于先进技术：基于 Flair嵌入和LSTM - CRF技术。

📦 安装指南

使用该模型需要安装 Flair，可以通过以下命令进行安装：

pip install flair

💻 使用示例

基础用法

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/pos-english-fast")

# 创建示例句子
sentence = Sentence("I love Berlin.")

# 预测词性标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印预测的词性标签范围
print('The following NER tags are found:')
# 遍历实体并打印
for entity in sentence.get_spans('pos'):
    print(entity)

上述代码的输出结果如下：

Span [1]: "I"   [− Labels: PRP (1.0)]
Span [2]: "love"   [− Labels: VBP (0.9998)]
Span [3]: "Berlin"   [− Labels: NNP (0.9999)]
Span [4]: "."   [− Labels: . (0.9998)]

在句子 “I love Berlin” 中，单词 “I” 被标记为代词 (PRP)，“love” 被标记为动词 (VBP)，“Berlin” 被标记为 专有名词 (NNP)。

📚 详细文档

词性标签含义

标签	含义
ADD	电子邮件
AFX	词缀
CC	并列连词
CD	基数词
DT	限定词
EX	存在句中的 “there”
FW	外来词
HYPH	连字符
IN	介词或从属连词
JJ	形容词
JJR	形容词，比较级
JJS	形容词，最高级
LS	列表项标记
MD	情态动词
NFP	多余的标点符号
NN	名词，单数或不可数
NNP	专有名词，单数
NNPS	专有名词，复数
NNS	名词，复数
PDT	前位限定词
POS	所有格结尾
PRP	人称代词
PRP$	物主代词
RB	副词
RBR	副词，比较级
RBS	副词，最高级
RP	小品词
SYM	符号
TO	“to”
UH	感叹词
VB	动词，原形
VBD	动词，过去式
VBG	动词，动名词或现在分词
VBN	动词，过去分词
VBP	动词，非第三人称单数现在时
VBZ	动词，第三人称单数现在时
WDT	疑问限定词
WP	疑问代词
WP$	所有格疑问代词
WRB	疑问副词
XX	未知

训练脚本

以下是用于训练该模型的Flair脚本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加载语料库（Ontonotes不随Flair一起提供，你需要自己下载并重新格式化为列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 我们要预测的标签类型是什么？
tag_type = 'pos'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化我们使用的每个嵌入
embedding_types = [

    # 上下文字符串嵌入，正向
    FlairEmbeddings('news-forward'),

    # 上下文字符串嵌入，反向
    FlairEmbeddings('news-backward'),
]

# 嵌入栈由Flair和GloVe嵌入组成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列标签器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. 初始化训练器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 运行训练
trainer.train('resources/taggers/pos-english-fast',
              train_with_dev=True,
              max_epochs=150)

📄 许可证

文档中未提及相关许可证信息。

🔧 技术细节

该模型基于 Flair嵌入和LSTM - CRF技术。Flair嵌入能够捕捉上下文信息，为词性标注提供更丰富的语义表示。LSTM - CRF则是一种常用的序列标注模型，能够有效处理序列数据中的依赖关系，从而提高词性标注的准确性。

📖 引用

使用该模型时，请引用以下论文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}