🚀 大型无大小写区分的BERT模型微调命名实体识别
此模型是在CoNLL2003数据集上对bert-large-uncased进行微调后的版本。它在评估集上取得了以下效果:
- 损失值:0.0778
- 精确率:0.9505
- 召回率:0.9575
- F1值:0.9540
- 准确率:0.9886
🚀 快速开始
本模型可通过Transformers的 pipeline 用于命名实体识别(NER)。
基础用法
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
model = AutoModelForTokenClassification.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Scott and I live in Ohio"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 基于大型无大小写区分的BERT模型进行微调,在CoNLL2003数据集上有良好表现。
- 能够对文本中的命名实体进行有效识别。
📦 安装指南
文档未提供安装相关内容,暂不展示。
💻 使用示例
基础用法
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
model = AutoModelForTokenClassification.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Scott and I live in Ohio"
ner_results = nlp(example)
print(ner_results)
📚 详细文档
模型描述
需要更多信息。
局限性和偏差
此模型受其训练数据集的限制,该数据集为特定时间段内带有实体标注的新闻文章。这可能导致它在不同领域的所有用例中泛化能力不佳。此外,模型偶尔会将子词标记为实体,可能需要对结果进行后处理以处理这些情况。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e - 05
- 训练批次大小:16
- 评估批次大小:64
- 随机种子:42
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 训练轮数:10
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
0.1997 |
1.0 |
878 |
0.0576 |
0.9316 |
0.9257 |
0.9286 |
0.9837 |
0.04 |
2.0 |
1756 |
0.0490 |
0.9400 |
0.9513 |
0.9456 |
0.9870 |
0.0199 |
3.0 |
2634 |
0.0557 |
0.9436 |
0.9540 |
0.9488 |
0.9879 |
0.0112 |
4.0 |
3512 |
0.0602 |
0.9443 |
0.9569 |
0.9506 |
0.9881 |
0.0068 |
5.0 |
4390 |
0.0631 |
0.9451 |
0.9589 |
0.9520 |
0.9882 |
0.0044 |
6.0 |
5268 |
0.0638 |
0.9510 |
0.9567 |
0.9538 |
0.9885 |
0.003 |
7.0 |
6146 |
0.0722 |
0.9495 |
0.9560 |
0.9527 |
0.9885 |
0.0016 |
8.0 |
7024 |
0.0762 |
0.9491 |
0.9595 |
0.9543 |
0.9887 |
0.0018 |
9.0 |
7902 |
0.0769 |
0.9496 |
0.9542 |
0.9519 |
0.9883 |
0.0009 |
10.0 |
8780 |
0.0778 |
0.9505 |
0.9575 |
0.9540 |
0.9886 |
框架版本
- Transformers 4.16.2
- Pytorch 1.8.1 + cu111
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技术细节
文档未提供足够技术细节内容,暂不展示。
📄 许可证
本项目采用Apache 2.0许可证。