🚀 KoELECTRA-small-v3-modu-ner
KoELECTRA-small-v3-modu-ner是基于monologg/koelectra-small-v3-discriminator在未知数据集上微调得到的模型。它可用于实体识别任务,能识别多种类型的实体,在评估集上有较好的表现。
🚀 快速开始
如何使用
你可以使用Transformers库的pipeline
进行命名实体识别(NER)。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)
example = "서울역으로 안내해줘."
ner_results = ner(example)
print(ner_results)
✨ 主要特性
- 标签系统:采用BIO标签系统,能准确标记实体的起始、中间和非实体部分。
- 丰富的标签集:遵循韩国信息通信技术协会(TTA)大分类标准,包含15种标签集,可识别多种类型的实体。
- 良好的性能:在评估集上,该模型的损失为0.1431,精确率为0.8232,召回率为0.8449,F1值为0.8339,准确率为0.9628。
📚 详细文档
标签系统说明
- B-(begin) : 实体名称开始时
- I-(inside) : 标记位于实体名称中间时
- O(outside) : 标记不是实体名称时
标签集说明
该模型遵循韩国信息通信技术协会(TTA)大分类标准,采用15种标签集,具体如下:
分类 |
标记 |
定义 |
ARTIFACTS |
AF |
人类创造的人工制品,包括文物、建筑、乐器、道路、武器、交通工具、作品名称、工业产品名称等 |
ANIMAL |
AM |
除人类以外的动物 |
CIVILIZATION |
CV |
文明/文化 |
DATE |
DT |
时期、季节、时期/时代 |
EVENT |
EV |
特定事件/事故/活动名称 |
STUDY_FIELD |
FD |
学术领域、学派和流派 |
LOCATION |
LC |
地区/地点和地形/地理名称等 |
MATERIAL |
MT |
元素和金属、岩石/宝石、化学物质 |
ORGANIZATION |
OG |
机构和团体名称 |
PERSON |
PS |
人名和人物别名(包括类似人物名称) |
PLANT |
PT |
花/树、陆地植物、海藻、蘑菇、苔藓 |
QUANTITY |
QT |
数量/分量、顺序/序列、由数字组成的表达 |
TIME |
TI |
时钟上显示的小时/时间、时间范围 |
TERM |
TM |
其他未在上述类别中定义的实体名称 |
THEORY |
TR |
特定理论、法则原理等 |
📦 安装指南
文档未提及安装步骤,若需使用该模型,可参考Transformers库的安装方法,确保安装以下版本的库:
- Transformers 4.27.4
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.3
🔧 技术细节
训练和评估数据
该命名实体识别(NER)模型的训练数据集来自:
- 韩国文化体育观光部 > 韩国国立国语院 > 全民语料库 > 实体分析语料库2021
- 数据集链接:https://corpus.korean.go.kr/request/reausetMain.do
训练超参数
训练过程中使用的超参数如下:
- 学习率(learning_rate): 5e-05
- 训练批次大小(train_batch_size): 64
- 评估批次大小(eval_batch_size): 64
- 随机种子(seed): 42
- 优化器(optimizer): Adam,β1=0.9,β2=0.999,ε=1e-08
- 学习率调度器类型(lr_scheduler_type): 线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps): 15151
- 训练轮数(num_epochs): 20
- 混合精度训练(mixed_precision_training): 原生自动混合精度(Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
无记录 |
1.0 |
3788 |
0.3978 |
0.5986 |
0.5471 |
0.5717 |
0.9087 |
无记录 |
2.0 |
7576 |
0.2319 |
0.6986 |
0.6953 |
0.6969 |
0.9345 |
无记录 |
3.0 |
11364 |
0.1838 |
0.7363 |
0.7612 |
0.7486 |
0.9444 |
无记录 |
4.0 |
15152 |
0.1610 |
0.7762 |
0.7745 |
0.7754 |
0.9509 |
无记录 |
5.0 |
18940 |
0.1475 |
0.7862 |
0.8011 |
0.7936 |
0.9545 |
无记录 |
6.0 |
22728 |
0.1417 |
0.7857 |
0.8181 |
0.8016 |
0.9563 |
无记录 |
7.0 |
26516 |
0.1366 |
0.8022 |
0.8196 |
0.8108 |
0.9584 |
无记录 |
8.0 |
30304 |
0.1346 |
0.8093 |
0.8236 |
0.8164 |
0.9596 |
无记录 |
9.0 |
34092 |
0.1328 |
0.8085 |
0.8299 |
0.8190 |
0.9602 |
无记录 |
10.0 |
37880 |
0.1332 |
0.8110 |
0.8368 |
0.8237 |
0.9608 |
无记录 |
11.0 |
41668 |
0.1323 |
0.8157 |
0.8347 |
0.8251 |
0.9612 |
无记录 |
12.0 |
45456 |
0.1353 |
0.8118 |
0.8402 |
0.8258 |
0.9611 |
无记录 |
13.0 |
49244 |
0.1370 |
0.8152 |
0.8416 |
0.8282 |
0.9616 |
无记录 |
14.0 |
53032 |
0.1368 |
0.8164 |
0.8415 |
0.8287 |
0.9616 |
无记录 |
15.0 |
56820 |
0.1378 |
0.8187 |
0.8438 |
0.8310 |
0.9621 |
无记录 |
16.0 |
60608 |
0.1389 |
0.8217 |
0.8438 |
0.8326 |
0.9626 |
无记录 |
17.0 |
64396 |
0.1380 |
0.8266 |
0.8426 |
0.8345 |
0.9631 |
无记录 |
18.0 |
68184 |
0.1428 |
0.8216 |
0.8445 |
0.8329 |
0.9625 |
无记录 |
19.0 |
71972 |
0.1431 |
0.8232 |
0.8455 |
0.8342 |
0.9628 |
0.1712 |
20.0 |
75760 |
0.1431 |
0.8232 |
0.8449 |
0.8339 |
0.9628 |
框架版本
- Transformers 4.27.4
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.3