🚀 冰岛语命名实体识别(IcelandicNER)DistilBERT模型
该模型在冰岛语的MIM - GOLD - NER数据集上进行了微调。MIM - GOLD - NER语料库由雷克雅未克大学在2018 - 2020年开发,涵盖了八种类型的实体:
🚀 快速开始
本模型可用于冰岛语的命名实体识别任务,通过微调MIM - GOLD - NER数据集获得了良好的性能。
✨ 主要特性
- 基于DistilBERT架构,在冰岛语的MIM - GOLD - NER数据集上微调。
- 能够识别八种不同类型的实体,包括日期、地点、人物等。
📦 安装指南
安装依赖
pip install transformers
💻 使用示例
基础用法
你可以使用Transformers库的pipeline进行命名实体识别。以下是使用该模型的示例代码:
from transformers import AutoTokenizer
from transformers import AutoModelForTokenClassification
from transformers import TFAutoModelForTokenClassification
from transformers import pipeline
model_name_or_path = "m3hrdadfi/icelandic-ner-distilbert"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Kristin manneskja getur ekki lagt frásagnir af Jesú Kristi á hilluna vegna þess að hún sé búin að lesa þær ."
ner_results = nlp(example)
print(ner_results)
📚 详细文档
数据集信息
数据集 |
记录数 |
B - 日期 |
B - 地点 |
B - 其他 |
B - 货币 |
B - 组织 |
B - 百分比 |
B - 人物 |
B - 时间 |
I - 日期 |
I - 地点 |
I - 其他 |
I - 货币 |
I - 组织 |
I - 百分比 |
I - 人物 |
I - 时间 |
训练集 |
39988 |
3409 |
5980 |
4351 |
729 |
5754 |
502 |
11719 |
868 |
2112 |
516 |
3036 |
770 |
2382 |
50 |
5478 |
790 |
验证集 |
7063 |
570 |
1034 |
787 |
100 |
1078 |
103 |
2106 |
147 |
409 |
76 |
560 |
104 |
458 |
7 |
998 |
136 |
测试集 |
8299 |
779 |
1319 |
935 |
153 |
1315 |
108 |
2247 |
172 |
483 |
104 |
660 |
167 |
617 |
10 |
1089 |
158 |
评估结果
以下表格总结了模型整体以及每个类别的得分:
实体 |
精确率 |
召回率 |
F1 - 分数 |
样本数 |
日期 |
0.969309 |
0.973042 |
0.971172 |
779.0 |
地点 |
0.941221 |
0.946929 |
0.944067 |
1319.0 |
其他 |
0.848283 |
0.819251 |
0.833515 |
935.0 |
货币 |
0.928571 |
0.934641 |
0.931596 |
153.0 |
组织 |
0.874147 |
0.876806 |
0.875475 |
1315.0 |
百分比 |
1.000000 |
1.000000 |
1.000000 |
108.0 |
人物 |
0.956674 |
0.972853 |
0.964695 |
2247.0 |
时间 |
0.965318 |
0.970930 |
0.968116 |
172.0 |
微平均 |
0.926110 |
0.929141 |
0.927623 |
7028.0 |
宏平均 |
0.935441 |
0.936807 |
0.936079 |
7028.0 |
加权平均 |
0.925578 |
0.929141 |
0.927301 |
7028.0 |
📄 许可证
本项目采用Apache - 2.0许可证。
💡 问题反馈
如果你有任何问题,请在IcelandicNER Issues仓库中提交GitHub问题。