bert-base-multilingual-cased-ner-hrl開源模型 - 支持10種語言識別地點、組織和人名

首頁

Bert Base Multilingual Cased Ner Hrl

由Davlan開發

基於mBERT的多語言命名實體識別模型，支持10種高資源語言，能識別地點、組織和人名三類實體。

序列標註

Transformers

#多語言NER #高資源語言 #新聞實體識別

下載量 363.27k

發布時間 : 3/2/2022

模型概述

該模型是在10種高資源語言聚合數據上微調的bert-base-multilingual-cased模型，專門用於命名實體識別任務。

模型特點

多語言支持

支持10種高資源語言的命名實體識別

實體類型識別

能準確識別地點(LOC)、組織(ORG)和人名(PER)三類實體

連續實體處理

能夠區分相同類型連續實體的起始位置

模型能力

多語言文本處理

命名實體識別

實體分類

使用案例

信息提取

新聞文章實體提取

從新聞文章中提取關鍵實體信息

準確識別人名、組織和地點

多語言文檔處理

處理多語言文檔中的命名實體

支持10種語言的實體識別

🚀 bert-base-multilingual-cased-ner-hrl

bert-base-multilingual-cased-ner-hrl 是一個用於10種高資源語言（阿拉伯語、德語、英語、西班牙語、法語、意大利語、拉脫維亞語、荷蘭語、葡萄牙語和中文）的命名實體識別模型。它基於經過微調的mBERT基礎模型，能夠識別三種類型的實體：地點（LOC）、組織（ORG）和人物（PER）。

🚀 快速開始

你可以使用Transformers的 pipeline 來進行命名實體識別（NER），以下是使用示例：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

✨ 主要特性

基於微調的mBERT基礎模型，適用於10種高資源語言。
能夠識別三種類型的實體：地點（LOC）、組織（ORG）和人物（PER）。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

📚 詳細文檔

預期用途與限制

如何使用

你可以使用Transformers的 pipeline 來使用此模型進行命名實體識別。

限制和偏差

該模型受限於其特定時間段內帶有實體標註的新聞文章訓練數據集，可能無法很好地泛化到不同領域的所有用例。

訓練數據

10種語言的訓練數據來源如下：

語言	數據集
阿拉伯語	ANERcorp
德語	conll 2003
英語	conll 2003
西班牙語	conll 2002
法語	Europeana Newspapers
意大利語	Italian I-CAB
拉脫維亞語	Latvian NER
荷蘭語	conll 2002
葡萄牙語	Paramopama + Second Harem
中文	MSRA

訓練數據集區分了實體的開始和延續，以便在出現連續的同類型實體時，模型能夠輸出第二個實體的起始位置。在數據集中，每個標記將被分類為以下類別之一：

縮寫	描述
O	命名實體之外
B - PER	緊接著另一個人名的人名開頭
I - PER	人名
B - ORG	緊接著另一個組織名的組織名開頭
I - ORG	組織
B - LOC	緊接著另一個地點名的地點名開頭
I - LOC	地點