🚀 distilroberta-base-ner-conll2003
該模型是 distilroberta-base 在 conll2003 數據集上的微調版本。它在命名實體識別任務中表現出色,能夠準確識別文本中的實體信息。
🚀 快速開始
模型使用示例
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("philschmid/distilroberta-base-ner-conll2003")
model = AutoModelForTokenClassification.from_pretrained("philschmid/distilroberta-base-ner-conll2003")
nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "My name is Philipp and live in Germany"
nlp(example)
✨ 主要特性
- 基於
distilroberta-base
模型微調,在 conll2003 數據集上進行訓練。
- 在命名實體識別任務中表現良好,具有較高的準確率和 F1 分數。
📦 安裝指南
文檔未提供安裝步驟,若需使用該模型,可參考 Hugging Face 官方文檔安裝相關依賴庫。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("philschmid/distilroberta-base-ner-conll2003")
model = AutoModelForTokenClassification.from_pretrained("philschmid/distilroberta-base-ner-conll2003")
nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "My name is Philipp and live in Germany"
nlp(example)
📚 詳細文檔
模型評估指標
數據集 |
評估指標 |
評估集值 |
測試集值 |
CoNLL - 03 |
F1 - Score |
95.29 |
90.74 |
CoNLL++ / CoNLL - 03 corrected |
F1 - Score |
95.29 |
92.23 |
訓練過程
訓練超參數
- 學習率(learning_rate):4.9902376275441704e - 05
- 訓練批次大小(train_batch_size):32
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):42
- 優化器(optimizer):Adam,β = (0.9, 0.999),ε = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):6.0
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
CoNNL2003 評估集
- 損失(Loss):0.0583
- 精確率(Precision):0.9493
- 召回率(Recall):0.9566
- F1 分數(F1):0.9529
- 準確率(Accuracy):0.9883
CoNNL2003 測試集
- 損失(Loss):0.2025
- 精確率(Precision):0.8999
- 召回率(Recall):0.915
- F1 分數(F1):0.9074
- 準確率(Accuracy):0.9741
CoNNL++ / CoNLL2003 corrected 評估集
- 損失(Loss):0.0567
- 精確率(Precision):0.9493
- 召回率(Recall):0.9566
- F1 分數(F1):0.9529
- 準確率(Accuracy):0.9883
CoNNL++ / CoNLL2003 corrected 測試集
- 損失(Loss):0.1359
- 精確率(Precision):0.92
- 召回率(Recall):0.9245
- F1 分數(F1):0.9223
- 準確率(Accuracy):0.9785
框架版本
- Transformers:4.6.1
- Pytorch:1.8.1 + cu101
- Datasets:1.6.2
- Tokenizers:0.10.2
📄 許可證
本模型使用 Apache - 2.0 許可證。