upos-multi-fast开源词性标注模型 - 免费部署支持12种语言词性标注

首页

Upos Multi Fast

由 flair 开发

Flair提供的快速多语言通用词性标注模型，支持12种语言的词性标注任务。

序列标注

PyTorch

支持多种语言#多语言词性标注 #快速推理 #通用词性标签

下载量 226

发布时间 : 3/2/2022

模型简介

该模型基于Flair嵌入和LSTM-CRF架构，用于对多种语言进行通用词性标注（UPOS）。

模型特点

多语言支持

支持12种语言的词性标注，包括英语、德语、法语等主要欧洲语言。

高效性能

采用快速版模型设计，在保持较高准确率的同时提升处理速度。

通用词性标注

使用统一的UD词性标签集，便于跨语言比较和分析。

模型能力

多语言词性标注

序列标注

使用案例

自然语言处理

多语言文本分析

对混合多种语言的文本进行词性标注

准确识别不同语言中的词性标签

语言学研究

比较不同语言的语法结构

提供统一的词性标注标准

🚀 Flair中的多语言通用词性标注（快速模型）

这是与 Flair 一起发布的快速多语言通用词性标注模型。该模型能有效解决多语言文本的词性标注问题，为自然语言处理任务提供了重要支持。

🚀 快速开始

此模型为快速多语言通用词性标注模型，随 Flair 一同发布。

F1 分数：92.88（涵盖英语、德语、法语、意大利语、荷兰语、波兰语、西班牙语、瑞典语、丹麦语、挪威语、芬兰语和捷克语的 12 个通用依存树库）

该模型可预测通用词性标签：

属性	详情
模型类型	基于 Flair 嵌入和 LSTM - CRF 的多语言通用词性标注模型
训练数据	ontonotes 数据集

标签	含义
ADJ	形容词
ADP	介词
ADV	副词
AUX	助动词
CCONJ	并列连词
DET	限定词
INTJ	感叹词
NOUN	名词
NUM	数词
PART	小品词
PRON	代词
PROPN	专有名词
PUNCT	标点符号
SCONJ	从属连词
SYM	符号
VERB	动词
X	其他

💻 使用示例

基础用法

from flair.data import Sentence
from flair.models import SequenceTagger

# load tagger
tagger = SequenceTagger.load("flair/upos-multi-fast")

# make example sentence
sentence = Sentence("Ich liebe Berlin, as they say. ")

# predict NER tags
tagger.predict(sentence)

# print sentence
print(sentence)

# print predicted NER spans
print('The following NER tags are found:')
# iterate over entities and print
for entity in sentence.get_spans('pos'):
    print(entity)

此代码会产生以下输出：

Span [1]: "Ich"   [− Labels: PRON (0.9999)]
Span [2]: "liebe"   [− Labels: VERB (0.9999)]
Span [3]: "Berlin"   [− Labels: PROPN (0.9997)]
Span [4]: ","   [− Labels: PUNCT (1.0)]
Span [5]: "as"   [− Labels: SCONJ (0.9991)]
Span [6]: "they"   [− Labels: PRON (0.9998)]
Span [7]: "say"   [− Labels: VERB (0.9998)]
Span [8]: "."   [− Labels: PUNCT (1.0)]

因此，在多语言句子 “Ich liebe Berlin, as they say” 中，单词 “Ich” 和 “they” 被标记为代词（PRON），而 “liebe” 和 “say” 被标记为动词（VERB）。

高级用法

# 以下脚本展示了如何使用 Flair 训练多语言通用词性标注模型
from flair.data import MultiCorpus
from flair.datasets import UD_ENGLISH, UD_GERMAN, UD_FRENCH, UD_ITALIAN, UD_POLISH, UD_DUTCH, UD_CZECH, \
    UD_DANISH, UD_SPANISH, UD_SWEDISH, UD_NORWEGIAN, UD_FINNISH
from flair.embeddings import StackedEmbeddings, FlairEmbeddings

# 1. make a multi corpus consisting of 12 UD treebanks (in_memory=False here because this corpus becomes large)
corpus = MultiCorpus([
    UD_ENGLISH(in_memory=False),
    UD_GERMAN(in_memory=False),
    UD_DUTCH(in_memory=False),
    UD_FRENCH(in_memory=False),
    UD_ITALIAN(in_memory=False),
    UD_SPANISH(in_memory=False),
    UD_POLISH(in_memory=False),
    UD_CZECH(in_memory=False),
    UD_DANISH(in_memory=False),
    UD_SWEDISH(in_memory=False),
    UD_NORWEGIAN(in_memory=False),
    UD_FINNISH(in_memory=False),
])

# 2. what tag do we want to predict?
tag_type = 'upos'

# 3. make the tag dictionary from the corpus
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. initialize each embedding we use
embedding_types = [

    # contextual string embeddings, forward
    FlairEmbeddings('multi-forward-fast'),

    # contextual string embeddings, backward
    FlairEmbeddings('multi-backward-fast'),
]

# embedding stack consists of Flair and GloVe embeddings
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. initialize sequence tagger
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type,
                        use_crf=False)

# 6. initialize trainer
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. run training
trainer.train('resources/taggers/upos-multi-fast',
              train_with_dev=True,
              max_epochs=150)

📄 引用

使用此模型时，请引用以下论文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}