🚀 bert-base-multilingual-cased-ner-hrl
bert-base-multilingual-cased-ner-hrl 是一个用于10种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文)的命名实体识别模型。它基于经过微调的mBERT基础模型,能够识别三种类型的实体:地点(LOC)、组织(ORG)和人物(PER)。
🚀 快速开始
你可以使用Transformers的 pipeline 来进行命名实体识别(NER),以下是使用示例:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 基于微调的mBERT基础模型,适用于10种高资源语言。
- 能够识别三种类型的实体:地点(LOC)、组织(ORG)和人物(PER)。
📦 安装指南
文档未提及具体安装步骤,故跳过。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)
📚 详细文档
预期用途与限制
如何使用
你可以使用Transformers的 pipeline 来使用此模型进行命名实体识别。
限制和偏差
该模型受限于其特定时间段内带有实体标注的新闻文章训练数据集,可能无法很好地泛化到不同领域的所有用例。
训练数据
10种语言的训练数据来源如下:
训练数据集区分了实体的开始和延续,以便在出现连续的同类型实体时,模型能够输出第二个实体的起始位置。在数据集中,每个标记将被分类为以下类别之一:
缩写 |
描述 |
O |
命名实体之外 |
B - PER |
紧接着另一个人名的人名开头 |
I - PER |
人名 |
B - ORG |
紧接着另一个组织名的组织名开头 |
I - ORG |
组织 |
B - LOC |
紧接着另一个地点名的地点名开头 |
I - LOC |
地点 |
训练过程
该模型在NVIDIA V100 GPU上使用HuggingFace代码推荐的超参数进行训练。
📄 许可证
本模型使用的许可证为afl - 3.0。