bert-base-multilingual-cased-ner-hrl开源模型 - 支持10种语言识别地点、组织和人名

首页

Bert Base Multilingual Cased Ner Hrl

由 Davlan 开发

基于mBERT的多语言命名实体识别模型，支持10种高资源语言，能识别地点、组织和人名三类实体。

序列标注

Transformers

#多语言NER #高资源语言 #新闻实体识别

下载量 363.27k

发布时间 : 3/2/2022

模型简介

该模型是在10种高资源语言聚合数据上微调的bert-base-multilingual-cased模型，专门用于命名实体识别任务。

模型特点

多语言支持

支持10种高资源语言的命名实体识别

实体类型识别

能准确识别地点(LOC)、组织(ORG)和人名(PER)三类实体

连续实体处理

能够区分相同类型连续实体的起始位置

模型能力

多语言文本处理

命名实体识别

实体分类

使用案例

信息提取

新闻文章实体提取

从新闻文章中提取关键实体信息

准确识别人名、组织和地点

多语言文档处理

处理多语言文档中的命名实体

支持10种语言的实体识别

🚀 bert-base-multilingual-cased-ner-hrl

bert-base-multilingual-cased-ner-hrl 是一个用于10种高资源语言（阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文）的命名实体识别模型。它基于经过微调的mBERT基础模型，能够识别三种类型的实体：地点（LOC）、组织（ORG）和人物（PER）。

🚀 快速开始

你可以使用Transformers的 pipeline 来进行命名实体识别（NER），以下是使用示例：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

✨ 主要特性

基于微调的mBERT基础模型，适用于10种高资源语言。
能够识别三种类型的实体：地点（LOC）、组织（ORG）和人物（PER）。

📦 安装指南

文档未提及具体安装步骤，故跳过。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

📚 详细文档

预期用途与限制

如何使用

你可以使用Transformers的 pipeline 来使用此模型进行命名实体识别。

限制和偏差

该模型受限于其特定时间段内带有实体标注的新闻文章训练数据集，可能无法很好地泛化到不同领域的所有用例。

训练数据

10种语言的训练数据来源如下：

语言	数据集
阿拉伯语	ANERcorp
德语	conll 2003
英语	conll 2003
西班牙语	conll 2002
法语	Europeana Newspapers
意大利语	Italian I-CAB
拉脱维亚语	Latvian NER
荷兰语	conll 2002
葡萄牙语	Paramopama + Second Harem
中文	MSRA

训练数据集区分了实体的开始和延续，以便在出现连续的同类型实体时，模型能够输出第二个实体的起始位置。在数据集中，每个标记将被分类为以下类别之一：

缩写	描述
O	命名实体之外
B - PER	紧接着另一个人名的人名开头
I - PER	人名
B - ORG	紧接着另一个组织名的组织名开头
I - ORG	组织
B - LOC	紧接着另一个地点名的地点名开头
I - LOC	地点