upos-multi开源词性标注模型 - 免费支持12种语言词性标注任务

首页

Upos Multi

由 flair 开发

Flair自带的默认多语言通用词性标注模型，支持12种语言的词性标注任务

序列标注

PyTorch

支持多种语言#多语言词性标注 #高精度UPOS #通用依存语法

下载量 865

发布时间 : 3/2/2022

模型简介

这是一个基于Flair框架的多语言通用词性标注模型，能够对12种语言的文本进行词性标注。模型使用Flair嵌入和LSTM-CRF架构，在UD树库上训练，具有较高的准确率。

模型特点

多语言支持

支持12种语言的词性标注，包括主要欧洲语言

高准确率

在12种UD树库上的F1分数达到96.87

通用词性标签集

使用统一的词性标签集，便于跨语言比较和分析

基于Flair嵌入

利用Flair上下文敏感的字符级嵌入，有效捕捉词形和上下文信息

模型能力

多语言词性标注

文本序列标注

语言分析

使用案例

自然语言处理

多语言文本分析

分析多语言混合文本中各单词的词性

准确标注每个单词的词性类别

语言学习工具

为语言学习者提供词性标注辅助

帮助理解单词在句子中的语法功能

预处理步骤

作为更复杂NLP任务(如句法分析)的预处理步骤

为下游任务提供词性信息

🚀 多语言通用词性标注模型（Flair默认模型）

本模型是 Flair 自带的默认多语言通用词性标注模型。它能够对多种语言进行词性标注，在多语言文本处理方面具有重要价值。

F1 分数：96.87（涵盖英语、德语、法语、意大利语、荷兰语、波兰语、西班牙语、瑞典语、丹麦语、挪威语、芬兰语和捷克语的 12 个通用依存树库）

该模型可预测以下通用词性标签：

标签	含义
ADJ	形容词
ADP	介词
ADV	副词
AUX	助动词
CCONJ	并列连词
DET	限定词
INTJ	感叹词
NOUN	名词
NUM	数词
PART	助词
PRON	代词
PROPN	专有名词
PUNCT	标点符号
SCONJ	从属连词
SYM	符号
VERB	动词
X	其他

本模型基于 Flair 嵌入和 LSTM - CRF 构建。

🚀 快速开始

环境准备

需要安装 Flair，可以使用以下命令进行安装：

pip install flair

代码示例

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/upos-multi")

# 创建示例句子
sentence = Sentence("Ich liebe Berlin, as they say. ")

# 预测词性标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 遍历每个词并打印预测的词性标签
print("The following POS tags are found:")
for token in sentence:
    print(token.get_label("upos"))

上述代码运行后将产生以下输出：

Token[0]: "Ich" → PRON (0.9999)
Token[1]: "liebe" → VERB (0.9999)
Token[2]: "Berlin" → PROPN (0.9997)
Token[3]: "," → PUNCT (1.0)
Token[4]: "as" → SCONJ (0.9991)
Token[5]: "they" → PRON (0.9998)
Token[6]: "say" → VERB (0.9998)
Token[7]: "." → PUNCT (1.0)

在多语言句子 “Ich liebe Berlin, as they say” 中，“Ich” 和 “they” 被标记为代词（PRON），“liebe” 和 “say” 被标记为动词（VERB）。

🔧 技术细节

模型训练脚本

以下是用于训练此模型的 Flair 脚本：

from flair.data import MultiCorpus
from flair.datasets import UD_ENGLISH, UD_GERMAN, UD_FRENCH, UD_ITALIAN, UD_POLISH, UD_DUTCH, UD_CZECH, \
    UD_DANISH, UD_SPANISH, UD_SWEDISH, UD_NORWEGIAN, UD_FINNISH
from flair.embeddings import StackedEmbeddings, FlairEmbeddings

# 1. 创建一个包含 12 个通用依存树库的多语料库（由于语料库较大，这里 in_memory=False）
corpus = MultiCorpus([
    UD_ENGLISH(in_memory=False),
    UD_GERMAN(in_memory=False),
    UD_DUTCH(in_memory=False),
    UD_FRENCH(in_memory=False),
    UD_ITALIAN(in_memory=False),
    UD_SPANISH(in_memory=False),
    UD_POLISH(in_memory=False),
    UD_CZECH(in_memory=False),
    UD_DANISH(in_memory=False),
    UD_SWEDISH(in_memory=False),
    UD_NORWEGIAN(in_memory=False),
    UD_FINNISH(in_memory=False),
])

# 2. 确定要预测的标签类型
tag_type = 'upos'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_label_dictionary(label_type=tag_type)

# 4. 初始化使用的每个嵌入
embedding_types = [
    # 上下文字符串嵌入，正向
    FlairEmbeddings('multi-forward'),

    # 上下文字符串嵌入，反向
    FlairEmbeddings('multi-backward'),
]

# 嵌入栈由 Flair 嵌入组成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列标签器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type,
                        use_crf=False)

# 6. 初始化训练器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 开始训练
trainer.train('resources/taggers/upos-multi',
              train_with_dev=True,
              max_epochs=150)

📖 引用说明

使用此模型时，请引用以下论文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}