🚀 Flair中的法语命名实体识别(默认模型)
本项目是 Flair 自带的标准4类法语命名实体识别(NER)模型。它能有效识别法语文本中的特定实体,为自然语言处理任务提供有力支持。
F1分数:90.61(WikiNER)
该模型可预测以下4种标签:
标签 |
含义 |
PER |
人名 |
LOC |
地名 |
ORG |
组织机构名 |
MISC |
其他名称 |
此模型基于 Flair嵌入 和LSTM - CRF构建。
🚀 快速开始
✨ 主要特性
- 高准确率:在WikiNER数据集上F1分数达到90.61,能精准识别法语文本中的实体。
- 多标签预测:可预测4种常见的命名实体标签,满足多种应用场景。
- 基于先进技术:采用Flair嵌入和LSTM - CRF架构,保证模型性能。
📦 安装指南
使用该模型需要安装 Flair,可通过以下命令进行安装:
pip install flair
💻 使用示例
基础用法
from flair.data import Sentence
from flair.models import SequenceTagger
tagger = SequenceTagger.load("flair/ner-french")
sentence = Sentence("George Washington est allé à Washington")
tagger.predict(sentence)
print(sentence)
print('The following NER tags are found:')
for entity in sentence.get_spans('ner'):
print(entity)
上述代码将产生以下输出:
Span [1,2]: "George Washington" [− Labels: PER (0.7394)]
Span [6]: "Washington" [− Labels: LOC (0.9161)]
这表明在句子 "George Washington est allé à Washington" 中,识别出了实体 "George Washington"(标记为人名)和 "Washington"(标记为地名)。
🔧 技术细节
本模型基于Flair嵌入和LSTM - CRF构建。Flair嵌入通过上下文信息为单词生成更具表现力的表示,而LSTM - CRF则用于序列标注任务,能够有效处理序列中的依赖关系。训练数据使用了WIKINER_FRENCH数据集,通过以下脚本进行模型训练:
from flair.data import Corpus
from flair.datasets import WIKINER_FRENCH
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings
corpus: Corpus = WIKINER_FRENCH()
tag_type = 'ner'
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)
embedding_types = [
WordEmbeddings('fr'),
FlairEmbeddings('fr-forward'),
FlairEmbeddings('fr-backward'),
]
embeddings = StackedEmbeddings(embeddings=embedding_types)
from flair.models import SequenceTagger
tagger = SequenceTagger(hidden_size=256,
embeddings=embeddings,
tag_dictionary=tag_dictionary,
tag_type=tag_type)
from flair.trainers import ModelTrainer
trainer = ModelTrainer(tagger, corpus)
trainer.train('resources/taggers/ner-french',
train_with_dev=True,
max_epochs=150)
📄 许可证
文档未提及许可证相关信息。
📚 引用说明
使用此模型时,请引用以下论文:
@inproceedings{akbik2018coling,
title={Contextual String Embeddings for Sequence Labeling},
author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
pages = {1638--1649},
year = {2018}
}
⚠️ 问题反馈
若遇到问题,可在 Flair问题跟踪器 中反馈。