🚀 基于EstBERT的爱沙尼亚语命名实体识别模型
该模型是 tartuNLP/EstBERT 在爱沙尼亚语命名实体识别(NER)数据集上的微调版本。它由塔尔图大学计算机科学研究所的自然语言处理研究小组tartuNLP训练。该模型可用于从爱沙尼亚语文本中识别命名实体,且任何人都可免费使用。
✨ 主要特性
- 高性能:在测试集上取得了良好的性能指标,如损失为 0.3565,准确率达到 0.9672。
- 多实体类型识别:能够识别多种实体类型,包括日期、事件、地理政治实体等。
📦 安装指南
文档未提及具体安装步骤,可参考相关依赖库的官方文档进行安装,如 transformers
库。
💻 使用示例
基础用法
你可以使用 Transformers
库的 pipeline
进行命名实体识别。由于模型偶尔会将子词标记为实体,因此可能需要对结果进行后处理。
from transformers import BertTokenizer, BertForTokenClassification
from transformers import pipeline
tokenizer = BertTokenizer.from_pretrained('tartuNLP/EstBERT_NER')
bertner = BertForTokenClassification.from_pretrained('tartuNLP/EstBERT_NER')
nlp = pipeline("ner", model=bertner, tokenizer=tokenizer)
text = "Kaia Kanepi (WTA 57.) langes USA-s Charlestonis toimuval WTA 500 kategooria tenniseturniiril konkurentsist kaheksandikfinaalis, kaotades poolatarile Magda Linette'ile (WTA 64.) 3 : 6, 6 : 4, 2 : 6."
ner_results = nlp(text)
tokens=tokenizer(text)
tokens=tokenizer.convert_ids_to_tokens(tokens['input_ids'])
print(f'tokens: {tokens}')
print(f'NER model:{ner_results}')
📚 详细文档
测试集结果
该模型在测试集上取得了以下结果:
- 损失:0.3565
- 精确率:0.7612
- 召回率:0.7744
- F1 值:0.7678
- 准确率:0.9672
实体级别的结果如下:
实体类型 |
精确率 |
召回率 |
F1 值 |
数量 |
DATE |
0.7278 |
0.7258 |
0.7268 |
372 |
EVENT |
0.3721 |
0.5714 |
0.4507 |
28 |
GPE |
0.8679 |
0.8369 |
0.8521 |
840 |
LOC |
0.6545 |
0.4832 |
0.5560 |
149 |
MONEY |
0.6625 |
0.6023 |
0.6310 |
88 |
ORG |
0.6761 |
0.7267 |
0.7005 |
589 |
PER |
0.8255 |
0.9068 |
0.8642 |
751 |
PERCENT |
1.0 |
0.9589 |
0.9790 |
73 |
PROD |
0.6030 |
0.5430 |
0.5714 |
221 |
TIME |
0.5682 |
0.5556 |
0.5618 |
45 |
TITLE |
0.7 |
0.8063 |
0.7494 |
191 |
预期用途与限制
该模型可用于从爱沙尼亚语文本中查找命名实体。任何人都可以免费使用该模型,但 tartuNLP 不保证该模型对任何人或任何用途都有用,并且不对其生成的任何结果负责。
训练和评估数据
该模型在两个爱沙尼亚语命名实体识别数据集上进行训练:
两个数据集都使用相同的注释方案进行注释。为了训练该模型,将这些数据集合并。
训练过程
训练超参数
训练过程中使用了以下超参数:
属性 |
详情 |
学习率 |
1e - 05 |
训练批次大小 |
16 |
评估批次大小 |
16 |
随机种子 |
1024 |
优化器 |
Adam(β1 = 0.9,β2 = 0.98,ε = 1e - 06) |
学习率调度器类型 |
多项式 |
最大训练轮数 |
150 |
提前停止限制 |
20 |
提前停止容忍度 |
0.0001 |
混合精度训练 |
原生自动混合精度(Native AMP) |
训练结果
最终模型在第 53 轮训练后保存(加粗显示),此时在开发集上的整体 F1 值最高。具体训练结果表格较长,可参考原文档中的表格数据。
📄 许可证
该模型采用 CC BY 4.0 许可证。