🚀 卡门伯特命名实体识别模型(camembert-ner)
卡门伯特命名实体识别模型(camembert-ner)是一个基于卡门伯特(camemBERT)微调的命名实体识别模型,用于处理法语文本的命名实体识别任务。它在维基命名实体法语数据集(wikiner-fr)上进行训练,在电子邮件和聊天数据上表现出色。
🚀 快速开始
卡门伯特命名实体识别模型(camembert-ner)是一个从卡门伯特(camemBERT)在维基命名实体法语数据集(wikiner-fr)上微调而来的命名实体识别模型。
该模型在维基命名实体法语数据集(约 170634 个句子)上进行训练。
模型在电子邮件/聊天数据上进行了验证,特别是在这类数据上的表现优于其他模型。
特别是,该模型在不以大写字母开头的实体上似乎效果更好。
✨ 主要特性
- 基于卡门伯特(camemBERT)微调,适用于法语命名实体识别任务。
- 在维基命名实体法语数据集上训练,数据量约为 170634 个句子。
- 在电子邮件和聊天数据上表现出色,尤其对不以大写字母开头的实体识别效果较好。
📦 安装指南
使用 HuggingFace 加载卡门伯特命名实体识别模型(camembert-ner)及其子词分词器:
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/camembert-ner")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/camembert-ner")
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/camembert-ner")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/camembert-ner")
from transformers import pipeline
nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne14, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015.")
[{'entity_group': 'ORG',
'score': 0.9472818374633789,
'word': 'Apple',
'start': 0,
'end': 5},
{'entity_group': 'PER',
'score': 0.9838564991950989,
'word': 'Steve Jobs',
'start': 74,
'end': 85},
{'entity_group': 'LOC',
'score': 0.9831605950991312,
'word': 'Los Altos',
'start': 87,
'end': 97},
{'entity_group': 'LOC',
'score': 0.9834540486335754,
'word': 'Californie',
'start': 100,
'end': 111},
{'entity_group': 'PER',
'score': 0.9841555754343668,
'word': 'Steve Jobs',
'start': 115,
'end': 126},
{'entity_group': 'PER',
'score': 0.9843501806259155,
'word': 'Steve Wozniak',
'start': 127,
'end': 141},
{'entity_group': 'PER',
'score': 0.9841533899307251,
'word': 'Ronald Wayne',
'start': 144,
'end': 157},
{'entity_group': 'ORG',
'score': 0.9468960364659628,
'word': 'Apple Computer',
'start': 243,
'end': 257}]
📚 详细文档
训练数据
训练数据的分类如下:
属性 |
详情 |
模型类型 |
基于卡门伯特(camemBERT)微调的命名实体识别模型 |
训练数据 |
维基命名实体法语数据集(wikiner-fr),约 170634 个句子 |
训练数据的分类说明:
缩写 |
描述 |
O |
非命名实体 |
MISC |
其他实体 |
PER |
人名 |
ORG |
组织名 |
LOC |
地名 |
模型性能(评估指标:seqeval)
整体性能
精度 |
召回率 |
F1 值 |
0.8859 |
0.8971 |
0.8914 |
按实体类型的性能
实体类型 |
精度 |
召回率 |
F1 值 |
PER |
0.9372 |
0.9598 |
0.9483 |
ORG |
0.8099 |
0.8265 |
0.8181 |
LOC |
0.8905 |
0.9005 |
0.8955 |
MISC |
0.8175 |
0.8117 |
0.8146 |
相关文章
如果你对如何使用该模型的结果来训练一个用于电子邮件签名检测的 LSTM 模型感兴趣,可以阅读以下文章:
LSTM 模型用于电子邮件签名检测
📄 许可证
本项目采用 MIT 许可证。