upos-multi-fast開源詞性標註模型 - 免費部署支持12種語言詞性標註

首頁

Upos Multi Fast

由flair開發

Flair提供的快速多語言通用詞性標註模型，支持12種語言的詞性標註任務。

序列標註

PyTorch

支持多種語言#多語言詞性標註 #快速推理 #通用詞性標籤

下載量 226

發布時間 : 3/2/2022

模型概述

該模型基於Flair嵌入和LSTM-CRF架構，用於對多種語言進行通用詞性標註（UPOS）。

模型特點

多語言支持

支持12種語言的詞性標註，包括英語、德語、法語等主要歐洲語言。

高效性能

採用快速版模型設計，在保持較高準確率的同時提升處理速度。

通用詞性標註

使用統一的UD詞性標籤集，便於跨語言比較和分析。

模型能力

多語言詞性標註

序列標註

使用案例

自然語言處理

多語言文本分析

對混合多種語言的文本進行詞性標註

準確識別不同語言中的詞性標籤

語言學研究

比較不同語言的語法結構

提供統一的詞性標註標準

🚀 Flair中的多語言通用詞性標註（快速模型）

這是與 Flair 一起發佈的快速多語言通用詞性標註模型。該模型能有效解決多語言文本的詞性標註問題，為自然語言處理任務提供了重要支持。

🚀 快速開始

此模型為快速多語言通用詞性標註模型，隨 Flair 一同發佈。

F1 分數：92.88（涵蓋英語、德語、法語、意大利語、荷蘭語、波蘭語、西班牙語、瑞典語、丹麥語、挪威語、芬蘭語和捷克語的 12 個通用依存樹庫）

該模型可預測通用詞性標籤：

屬性	詳情
模型類型	基於 Flair 嵌入和 LSTM - CRF 的多語言通用詞性標註模型
訓練數據	ontonotes 數據集

標籤	含義
ADJ	形容詞
ADP	介詞
ADV	副詞
AUX	助動詞
CCONJ	並列連詞
DET	限定詞
INTJ	感嘆詞
NOUN	名詞
NUM	數詞
PART	小品詞
PRON	代詞
PROPN	專有名詞
PUNCT	標點符號
SCONJ	從屬連詞
SYM	符號
VERB	動詞
X	其他

💻 使用示例

基礎用法

from flair.data import Sentence
from flair.models import SequenceTagger

# load tagger
tagger = SequenceTagger.load("flair/upos-multi-fast")

# make example sentence
sentence = Sentence("Ich liebe Berlin, as they say. ")

# predict NER tags
tagger.predict(sentence)

# print sentence
print(sentence)

# print predicted NER spans
print('The following NER tags are found:')
# iterate over entities and print
for entity in sentence.get_spans('pos'):
    print(entity)

此代碼會產生以下輸出：

Span [1]: "Ich"   [− Labels: PRON (0.9999)]
Span [2]: "liebe"   [− Labels: VERB (0.9999)]
Span [3]: "Berlin"   [− Labels: PROPN (0.9997)]
Span [4]: ","   [− Labels: PUNCT (1.0)]
Span [5]: "as"   [− Labels: SCONJ (0.9991)]
Span [6]: "they"   [− Labels: PRON (0.9998)]
Span [7]: "say"   [− Labels: VERB (0.9998)]
Span [8]: "."   [− Labels: PUNCT (1.0)]

因此，在多語言句子 “Ich liebe Berlin, as they say” 中，單詞 “Ich” 和 “they” 被標記為代詞（PRON），而 “liebe” 和 “say” 被標記為動詞（VERB）。

高級用法

# 以下腳本展示瞭如何使用 Flair 訓練多語言通用詞性標註模型
from flair.data import MultiCorpus
from flair.datasets import UD_ENGLISH, UD_GERMAN, UD_FRENCH, UD_ITALIAN, UD_POLISH, UD_DUTCH, UD_CZECH, \
    UD_DANISH, UD_SPANISH, UD_SWEDISH, UD_NORWEGIAN, UD_FINNISH
from flair.embeddings import StackedEmbeddings, FlairEmbeddings

# 1. make a multi corpus consisting of 12 UD treebanks (in_memory=False here because this corpus becomes large)
corpus = MultiCorpus([
    UD_ENGLISH(in_memory=False),
    UD_GERMAN(in_memory=False),
    UD_DUTCH(in_memory=False),
    UD_FRENCH(in_memory=False),
    UD_ITALIAN(in_memory=False),
    UD_SPANISH(in_memory=False),
    UD_POLISH(in_memory=False),
    UD_CZECH(in_memory=False),
    UD_DANISH(in_memory=False),
    UD_SWEDISH(in_memory=False),
    UD_NORWEGIAN(in_memory=False),
    UD_FINNISH(in_memory=False),
])

# 2. what tag do we want to predict?
tag_type = 'upos'

# 3. make the tag dictionary from the corpus
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. initialize each embedding we use
embedding_types = [

    # contextual string embeddings, forward
    FlairEmbeddings('multi-forward-fast'),

    # contextual string embeddings, backward
    FlairEmbeddings('multi-backward-fast'),
]

# embedding stack consists of Flair and GloVe embeddings
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. initialize sequence tagger
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type,
                        use_crf=False)

# 6. initialize trainer
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. run training
trainer.train('resources/taggers/upos-multi-fast',
              train_with_dev=True,
              max_epochs=150)

📄 引用

使用此模型時，請引用以下論文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}