KoELECTRA-small-v3-modu-ner开源韩语命名实体识别模型

首页

Koelectra Small V3 Modu Ner

由 Leo97 开发

基于KoELECTRA-small-v3的韩语命名实体识别模型，支持15种实体类型识别

序列标注

Transformers

韩语#韩语命名实体识别 #BIO标注体系 #TTA标准实体分类

下载量 9,277

发布时间 : 3/29/2023

模型简介

该模型是基于monologg/koelectra-small-v3-discriminator微调的韩语命名实体识别(NER)模型，采用BIO标注系统，支持15种实体类型识别。

模型特点

多类别实体识别

支持15种实体类型识别，包括地点、人物、组织等

高性能

在评估集上F1值达到0.8339，准确率0.9628

标准标注系统

采用BIO标注系统，符合行业标准

模型能力

韩语文本实体识别

多类别实体标注

自然语言处理

使用案例

智能助手

地址识别

识别用户指令中的地点信息

示例：'请带我去首尔站' 可识别'首尔站'为地点(LC)

设备控制

识别设备控制指令中的参数

示例：'把空调温度调高3度' 可识别'3度'为数量(QT)

信息检索

艺人作品搜索

识别搜索请求中的艺人信息

示例：'搜索IU的歌曲' 可识别'IU'为人物(PS)

🚀 KoELECTRA-small-v3-modu-ner

KoELECTRA-small-v3-modu-ner是基于monologg/koelectra-small-v3-discriminator在未知数据集上微调得到的模型。它可用于实体识别任务，能识别多种类型的实体，在评估集上有较好的表现。

🚀 快速开始

如何使用

你可以使用Transformers库的pipeline进行命名实体识别（NER）。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)

example = "서울역으로 안내해줘."
ner_results = ner(example)
print(ner_results)

✨ 主要特性

标签系统：采用BIO标签系统，能准确标记实体的起始、中间和非实体部分。
丰富的标签集：遵循韩国信息通信技术协会（TTA）大分类标准，包含15种标签集，可识别多种类型的实体。
良好的性能：在评估集上，该模型的损失为0.1431，精确率为0.8232，召回率为0.8449，F1值为0.8339，准确率为0.9628。

📚 详细文档

标签系统说明

B-(begin) : 实体名称开始时
I-(inside) : 标记位于实体名称中间时
O(outside) : 标记不是实体名称时

标签集说明

该模型遵循韩国信息通信技术协会（TTA）大分类标准，采用15种标签集，具体如下：

分类	标记	定义
ARTIFACTS	AF	人类创造的人工制品，包括文物、建筑、乐器、道路、武器、交通工具、作品名称、工业产品名称等
ANIMAL	AM	除人类以外的动物
CIVILIZATION	CV	文明/文化
DATE	DT	时期、季节、时期/时代
EVENT	EV	特定事件/事故/活动名称
STUDY_FIELD	FD	学术领域、学派和流派
LOCATION	LC	地区/地点和地形/地理名称等
MATERIAL	MT	元素和金属、岩石/宝石、化学物质
ORGANIZATION	OG	机构和团体名称
PERSON	PS	人名和人物别名（包括类似人物名称）
PLANT	PT	花/树、陆地植物、海藻、蘑菇、苔藓
QUANTITY	QT	数量/分量、顺序/序列、由数字组成的表达
TIME	TI	时钟上显示的小时/时间、时间范围
TERM	TM	其他未在上述类别中定义的实体名称
THEORY	TR	特定理论、法则原理等

📦 安装指南

文档未提及安装步骤，若需使用该模型，可参考Transformers库的安装方法，确保安装以下版本的库：

Transformers 4.27.4
Pytorch 2.0.0+cu118
Datasets 2.11.0
Tokenizers 0.13.3

🔧 技术细节

训练和评估数据

该命名实体识别（NER）模型的训练数据集来自：

韩国文化体育观光部 > 韩国国立国语院 > 全民语料库 > 实体分析语料库2021
数据集链接：https://corpus.korean.go.kr/request/reausetMain.do

训练超参数

训练过程中使用的超参数如下：

学习率（learning_rate）: 5e-05
训练批次大小（train_batch_size）: 64
评估批次大小（eval_batch_size）: 64
随机种子（seed）: 42
优化器（optimizer）: Adam，β1=0.9，β2=0.999，ε=1e-08
学习率调度器类型（lr_scheduler_type）: 线性
学习率调度器热身步数（lr_scheduler_warmup_steps）: 15151
训练轮数（num_epochs）: 20
混合精度训练（mixed_precision_training）: 原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	精确率	召回率	F1值	准确率
无记录	1.0	3788	0.3978	0.5986	0.5471	0.5717	0.9087
无记录	2.0	7576	0.2319	0.6986	0.6953	0.6969	0.9345
无记录	3.0	11364	0.1838	0.7363	0.7612	0.7486	0.9444
无记录	4.0	15152	0.1610	0.7762	0.7745	0.7754	0.9509
无记录	5.0	18940	0.1475	0.7862	0.8011	0.7936	0.9545
无记录	6.0	22728	0.1417	0.7857	0.8181	0.8016	0.9563
无记录	7.0	26516	0.1366	0.8022	0.8196	0.8108	0.9584
无记录	8.0	30304	0.1346	0.8093	0.8236	0.8164	0.9596
无记录	9.0	34092	0.1328	0.8085	0.8299	0.8190	0.9602
无记录	10.0	37880	0.1332	0.8110	0.8368	0.8237	0.9608
无记录	11.0	41668	0.1323	0.8157	0.8347	0.8251	0.9612
无记录	12.0	45456	0.1353	0.8118	0.8402	0.8258	0.9611
无记录	13.0	49244	0.1370	0.8152	0.8416	0.8282	0.9616
无记录	14.0	53032	0.1368	0.8164	0.8415	0.8287	0.9616
无记录	15.0	56820	0.1378	0.8187	0.8438	0.8310	0.9621
无记录	16.0	60608	0.1389	0.8217	0.8438	0.8326	0.9626
无记录	17.0	64396	0.1380	0.8266	0.8426	0.8345	0.9631
无记录	18.0	68184	0.1428	0.8216	0.8445	0.8329	0.9625
无记录	19.0	71972	0.1431	0.8232	0.8455	0.8342	0.9628
0.1712	20.0	75760	0.1431	0.8232	0.8449	0.8339	0.9628