upos-multi開源詞性標註模型 - 免費支持12種語言詞性標註任務

首頁

Upos Multi

由flair開發

Flair自帶的默認多語言通用詞性標註模型，支持12種語言的詞性標註任務

序列標註

PyTorch

支持多種語言#多語言詞性標註 #高精度UPOS #通用依存語法

下載量 865

發布時間 : 3/2/2022

模型概述

這是一個基於Flair框架的多語言通用詞性標註模型，能夠對12種語言的文本進行詞性標註。模型使用Flair嵌入和LSTM-CRF架構，在UD樹庫上訓練，具有較高的準確率。

模型特點

多語言支持

支持12種語言的詞性標註，包括主要歐洲語言

高準確率

在12種UD樹庫上的F1分數達到96.87

通用詞性標籤集

使用統一的詞性標籤集，便於跨語言比較和分析

基於Flair嵌入

利用Flair上下文敏感的字符級嵌入，有效捕捉詞形和上下文信息

模型能力

多語言詞性標註

文本序列標註

語言分析

使用案例

自然語言處理

多語言文本分析

分析多語言混合文本中各單詞的詞性

準確標註每個單詞的詞性類別

語言學習工具

為語言學習者提供詞性標註輔助

幫助理解單詞在句子中的語法功能

預處理步驟

作為更復雜NLP任務(如句法分析)的預處理步驟

為下游任務提供詞性信息

🚀 多語言通用詞性標註模型（Flair默認模型）

本模型是 Flair 自帶的默認多語言通用詞性標註模型。它能夠對多種語言進行詞性標註，在多語言文本處理方面具有重要價值。

F1 分數：96.87（涵蓋英語、德語、法語、意大利語、荷蘭語、波蘭語、西班牙語、瑞典語、丹麥語、挪威語、芬蘭語和捷克語的 12 個通用依存樹庫）

該模型可預測以下通用詞性標籤：

標籤	含義
ADJ	形容詞
ADP	介詞
ADV	副詞
AUX	助動詞
CCONJ	並列連詞
DET	限定詞
INTJ	感嘆詞
NOUN	名詞
NUM	數詞
PART	助詞
PRON	代詞
PROPN	專有名詞
PUNCT	標點符號
SCONJ	從屬連詞
SYM	符號
VERB	動詞
X	其他

本模型基於 Flair 嵌入和 LSTM - CRF 構建。

🚀 快速開始

環境準備

需要安裝 Flair，可以使用以下命令進行安裝：

pip install flair

代碼示例

from flair.data import Sentence
from flair.models import SequenceTagger

# 加載標籤器
tagger = SequenceTagger.load("flair/upos-multi")

# 創建示例句子
sentence = Sentence("Ich liebe Berlin, as they say. ")

# 預測詞性標籤
tagger.predict(sentence)

# 打印句子
print(sentence)

# 遍歷每個詞並打印預測的詞性標籤
print("The following POS tags are found:")
for token in sentence:
    print(token.get_label("upos"))

上述代碼運行後將產生以下輸出：

Token[0]: "Ich" → PRON (0.9999)
Token[1]: "liebe" → VERB (0.9999)
Token[2]: "Berlin" → PROPN (0.9997)
Token[3]: "," → PUNCT (1.0)
Token[4]: "as" → SCONJ (0.9991)
Token[5]: "they" → PRON (0.9998)
Token[6]: "say" → VERB (0.9998)
Token[7]: "." → PUNCT (1.0)

在多語言句子 “Ich liebe Berlin, as they say” 中，“Ich” 和 “they” 被標記為代詞（PRON），“liebe” 和 “say” 被標記為動詞（VERB）。

🔧 技術細節

模型訓練腳本

以下是用於訓練此模型的 Flair 腳本：

from flair.data import MultiCorpus
from flair.datasets import UD_ENGLISH, UD_GERMAN, UD_FRENCH, UD_ITALIAN, UD_POLISH, UD_DUTCH, UD_CZECH, \
    UD_DANISH, UD_SPANISH, UD_SWEDISH, UD_NORWEGIAN, UD_FINNISH
from flair.embeddings import StackedEmbeddings, FlairEmbeddings

# 1. 創建一個包含 12 個通用依存樹庫的多語料庫（由於語料庫較大，這裡 in_memory=False）
corpus = MultiCorpus([
    UD_ENGLISH(in_memory=False),
    UD_GERMAN(in_memory=False),
    UD_DUTCH(in_memory=False),
    UD_FRENCH(in_memory=False),
    UD_ITALIAN(in_memory=False),
    UD_SPANISH(in_memory=False),
    UD_POLISH(in_memory=False),
    UD_CZECH(in_memory=False),
    UD_DANISH(in_memory=False),
    UD_SWEDISH(in_memory=False),
    UD_NORWEGIAN(in_memory=False),
    UD_FINNISH(in_memory=False),
])

# 2. 確定要預測的標籤類型
tag_type = 'upos'

# 3. 從語料庫中創建標籤字典
tag_dictionary = corpus.make_label_dictionary(label_type=tag_type)

# 4. 初始化使用的每個嵌入
embedding_types = [
    # 上下文字符串嵌入，正向
    FlairEmbeddings('multi-forward'),

    # 上下文字符串嵌入，反向
    FlairEmbeddings('multi-backward'),
]

# 嵌入棧由 Flair 嵌入組成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列標籤器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type,
                        use_crf=False)

# 6. 初始化訓練器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 開始訓練
trainer.train('resources/taggers/upos-multi',
              train_with_dev=True,
              max_epochs=150)

📖 引用說明

使用此模型時，請引用以下論文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}