xlm-roberta-large-ner-kazakh开源模型 - 支持多实体识别的哈萨克语命名实体识别利器

首页

Xlm Roberta Large Ner Kazakh

由 yeshpanovrustem 开发

基于XLM-RoBERTa-large架构的哈萨克语命名实体识别模型，在KazNERD数据集上训练，支持多种实体类型识别

序列标注

Transformers

其他#哈萨克语NER #多实体识别 #高精度序列标注

下载量 99

发布时间 : 5/19/2023

模型简介

该模型专门用于哈萨克语文本中的命名实体识别任务，能够识别地理位置、人名、组织名等多种实体类型

模型特点

高精度哈萨克语NER

在验证集和测试集上F1值均超过96%，表现优异

多类别实体识别

支持识别谚语、艺术品、基数词、联系方式、日期等多种实体类型

基于KazNERD数据集

使用经过清洗的哈萨克语命名实体识别数据集训练，数据质量高

模型能力

哈萨克语文本处理

命名实体识别

序列标注

使用案例

文本分析

新闻文本分析

从哈萨克语新闻中提取关键实体信息

可准确识别地理位置、人名等关键信息

商业文档处理

分析哈萨克斯坦与欧盟贸易文档中的关键数据

能识别金额、日期等关键商业实体

学术研究

哈萨克语语言学研究

支持哈萨克语语言结构和实体分布研究

🚀 哈萨克语命名实体识别模型

本模型用于解决哈萨克语命名实体识别问题，通过对哈萨克语语料的训练，能够准确识别文本中的各类命名实体，为哈萨克语的信息处理和分析提供有力支持。

🚀 快速开始

本模型可与 Transformers 库的 NER 管道结合使用。以下是具体的使用代码：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
model = AutoModelForTokenClassification.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")

# aggregation_strategy = "none"
nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "none")
example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."

ner_results = nlp(example)
for result in ner_results:
    print(result)

# output:
# {'entity': 'B-GPE', 'score': 0.9995646, 'index': 1, 'word': '▁Қазақстан', 'start': 0, 'end': 9}
# {'entity': 'I-GPE', 'score': 0.9994935, 'index': 2, 'word': '▁Республикасы', 'start': 10, 'end': 22}
# {'entity': 'B-LOCATION', 'score': 0.99906737, 'index': 4, 'word': '▁Шығыс', 'start': 25, 'end': 30}
# {'entity': 'I-LOCATION', 'score': 0.999153, 'index': 5, 'word': '▁Еуропа', 'start': 31, 'end': 37}
# {'entity': 'B-LOCATION', 'score': 0.9991597, 'index': 7, 'word': '▁Орталық', 'start': 42, 'end': 49}
# {'entity': 'I-LOCATION', 'score': 0.9991725, 'index': 8, 'word': '▁Азия', 'start': 50, 'end': 54}
# {'entity': 'I-LOCATION', 'score': 0.9992299, 'index': 9, 'word': 'да', 'start': 54, 'end': 56}

token = ""
label_list = []
token_list = []

for result in ner_results:
    if result["word"].startswith("▁"):
        if token:
            token_list.append(token.replace("▁", ""))
        token = result["word"]
        label_list.append(result["entity"])
    else:
        token += result["word"]

token_list.append(token.replace("▁", ""))

for token, label in zip(token_list, label_list):
    print(f"{token}\t{label}")

# output:
# Қазақстан	B-GPE
# Республикасы	I-GPE
# Шығыс	B-LOCATION
# Еуропа	I-LOCATION
# Орталық	B-LOCATION
# Азияда	I-LOCATION

# aggregation_strategy = "simple"
nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "simple")
example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."

ner_results = nlp(example)
for result in ner_results:
    print(result)

# output:
# {'entity_group': 'GPE', 'score': 0.999529, 'word': 'Қазақстан Республикасы', 'start': 0, 'end': 22}
# {'entity_group': 'LOCATION', 'score': 0.9991102, 'word': 'Шығыс Еуропа', 'start': 25, 'end': 37}
# {'entity_group': 'LOCATION', 'score': 0.9991874, 'word': 'Орталық Азияда', 'start': 42, 'end': 56}

📚 详细文档

模型灵感来源

本模型的灵感来源于 LREC 2022 会议上发表的论文 KazNERD: Kazakh Named Entity Recognition Dataset。

训练数据

模型在 ner_kazakh 数据集上进行了 3 个轮次的训练。

原论文仓库

论文的原始代码仓库可在 https://github.com/IS2AI/KazNERD 找到。

评估指标

模型使用的评估指标为 seqeval。

数据集

使用的数据集为 yeshpanovrustem/ner-kazakh。

许可证

本模型采用 CC BY 4.0 许可证。

模型测试示例

示例标题	示例文本
Example 1	Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
Example 2	Ахмет Байтұрсынұлы — қазақ тілінің дыбыстық жүйесін алғашқы құрған ғалым.
Example 3	Қазақстан мен ЕуроОдақ арасындағы тауар айналым былтыр 38% өсіп, 40 миллиард долларға жетті. Екі тарап серіктестікті одан әрі нығайтуға мүдделі. Атап айтсақ, Қазақстан Еуропаға құны 2 млрд доллардан асатын 175 тауар экспорттын ұлғайтуға дайын.

验证集和测试集的评估结果

	验证集			测试集
精确率	召回率	F₁ 分数	精确率	召回率	F₁ 分数
96.58%	96.66%	96.62%	96.49%	96.86%	96.67%

验证集上各命名实体类别的模型性能

命名实体类别	精确率	召回率	F₁ 分数	样本数量
谚语	90.00%	47.37%	62.07%	19
艺术	91.36%	95.48%	93.38%	155
基数	98.44%	98.37%	98.40%	2,878
联系方式	100.00%	83.33%	90.91%	18
日期	97.38%	97.27%	97.33%	2,603
疾病	96.72%	97.52%	97.12%	121
事件	83.24%	93.51%	88.07%	154
设施	68.95%	84.83%	76.07%	178
地理政治实体	98.46%	96.50%	97.47%	1,656
语言	95.45%	89.36%	92.31%	47
法律	87.50%	87.50%	87.50%	56
地点	92.49%	93.81%	93.14%	210
其他	100.00%	76.92%	86.96%	26
货币	99.56%	100.00%	99.78%	455
非人类	0.00%	0.00%	0.00%	1
民族/宗教/政治团体	95.71%	95.45%	95.58%	374
序数	98.14%	95.84%	96.98%	385
组织	92.19%	90.97%	91.58%	753
百分比	99.08%	99.08%	99.08%	437
人物	98.47%	98.72%	98.60%	1,175
职位	96.15%	97.79%	96.96%	587
产品	89.06%	78.08%	83.21%	73
项目	92.13%	95.22%	93.65%	209
数量	97.58%	98.30%	97.94%	411
时间	94.81%	96.63%	95.71%	208
微平均	96.58%	96.66%	96.62%	13,189
宏平均	90.12%	87.51%	88.39%	13,189
加权平均	96.67%	96.66%	96.63%	13,189

测试集上各命名实体类别的模型性能

命名实体类别	精确率	召回率	F₁ 分数	样本数量
谚语	71.43%	29.41%	41.67%	17
艺术	95.71%	96.89%	96.30%	161
基数	98.43%	98.60%	98.51%	2,789
联系方式	94.44%	85.00%	89.47%	20
日期	96.59%	97.60%	97.09%	2,584
疾病	87.69%	95.80%	91.57%	119
事件	86.67%	92.86%	89.66%	154
设施	74.88%	81.73%	78.16%	197
地理政治实体	98.57%	97.81%	98.19%	1,691
语言	90.70%	95.12%	92.86%	41
法律	93.33%	76.36%	84.00%	55
地点	92.08%	89.42%	90.73%	208
其他	86.21%	96.15%	90.91%	26
货币	100.00%	100.00%	100.00%	427
非人类	0.00%	0.00%	0.00%	1
民族/宗教/政治团体	99.46%	99.18%	99.32%	368
序数	96.63%	97.64%	97.14%	382
组织	90.97%	91.23%	91.10%	718
百分比	98.05%	98.05%	98.05%	462
人物	98.70%	99.13%	98.92%	1,151
职位	96.36%	97.65%	97.00%	597
产品	89.23%	77.33%	82.86%	75
项目	93.69%	93.69%	93.69%	206
数量	97.26%	97.02%	97.14%	403
时间	94.95%	94.09%	94.52%	220
微平均	96.54%	96.85%	96.69%	13,072
宏平均	88.88%	87.11%	87.55%	13,072
加权平均	96.55%	96.85%	96.67%	13,072