🚀 distilroberta-base-ner-conll2003
该模型是 distilroberta-base 在 conll2003 数据集上的微调版本。它在命名实体识别任务中表现出色,能够准确识别文本中的实体信息。
🚀 快速开始
模型使用示例
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("philschmid/distilroberta-base-ner-conll2003")
model = AutoModelForTokenClassification.from_pretrained("philschmid/distilroberta-base-ner-conll2003")
nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "My name is Philipp and live in Germany"
nlp(example)
✨ 主要特性
- 基于
distilroberta-base
模型微调,在 conll2003 数据集上进行训练。
- 在命名实体识别任务中表现良好,具有较高的准确率和 F1 分数。
📦 安装指南
文档未提供安装步骤,若需使用该模型,可参考 Hugging Face 官方文档安装相关依赖库。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("philschmid/distilroberta-base-ner-conll2003")
model = AutoModelForTokenClassification.from_pretrained("philschmid/distilroberta-base-ner-conll2003")
nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "My name is Philipp and live in Germany"
nlp(example)
📚 详细文档
模型评估指标
数据集 |
评估指标 |
评估集值 |
测试集值 |
CoNLL - 03 |
F1 - Score |
95.29 |
90.74 |
CoNLL++ / CoNLL - 03 corrected |
F1 - Score |
95.29 |
92.23 |
训练过程
训练超参数
- 学习率(learning_rate):4.9902376275441704e - 05
- 训练批次大小(train_batch_size):32
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):42
- 优化器(optimizer):Adam,β = (0.9, 0.999),ε = 1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 训练轮数(num_epochs):6.0
- 混合精度训练(mixed_precision_training):Native AMP
训练结果
CoNNL2003 评估集
- 损失(Loss):0.0583
- 精确率(Precision):0.9493
- 召回率(Recall):0.9566
- F1 分数(F1):0.9529
- 准确率(Accuracy):0.9883
CoNNL2003 测试集
- 损失(Loss):0.2025
- 精确率(Precision):0.8999
- 召回率(Recall):0.915
- F1 分数(F1):0.9074
- 准确率(Accuracy):0.9741
CoNNL++ / CoNLL2003 corrected 评估集
- 损失(Loss):0.0567
- 精确率(Precision):0.9493
- 召回率(Recall):0.9566
- F1 分数(F1):0.9529
- 准确率(Accuracy):0.9883
CoNNL++ / CoNLL2003 corrected 测试集
- 损失(Loss):0.1359
- 精确率(Precision):0.92
- 召回率(Recall):0.9245
- F1 分数(F1):0.9223
- 准确率(Accuracy):0.9785
框架版本
- Transformers:4.6.1
- Pytorch:1.8.1 + cu101
- Datasets:1.6.2
- Tokenizers:0.10.2
📄 许可证
本模型使用 Apache - 2.0 许可证。