🚀 bert-base-multilingual-cased-ner-hrl
bert-base-multilingual-cased-ner-hrl 是一個用於10種高資源語言(阿拉伯語、德語、英語、西班牙語、法語、意大利語、拉脫維亞語、荷蘭語、葡萄牙語和中文)的命名實體識別模型。它基於經過微調的mBERT基礎模型,能夠識別三種類型的實體:地點(LOC)、組織(ORG)和人物(PER)。
🚀 快速開始
你可以使用Transformers的 pipeline 來進行命名實體識別(NER),以下是使用示例:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 基於微調的mBERT基礎模型,適用於10種高資源語言。
- 能夠識別三種類型的實體:地點(LOC)、組織(ORG)和人物(PER)。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)
📚 詳細文檔
預期用途與限制
如何使用
你可以使用Transformers的 pipeline 來使用此模型進行命名實體識別。
限制和偏差
該模型受限於其特定時間段內帶有實體標註的新聞文章訓練數據集,可能無法很好地泛化到不同領域的所有用例。
訓練數據
10種語言的訓練數據來源如下:
訓練數據集區分了實體的開始和延續,以便在出現連續的同類型實體時,模型能夠輸出第二個實體的起始位置。在數據集中,每個標記將被分類為以下類別之一:
縮寫 |
描述 |
O |
命名實體之外 |
B - PER |
緊接著另一個人名的人名開頭 |
I - PER |
人名 |
B - ORG |
緊接著另一個組織名的組織名開頭 |
I - ORG |
組織 |
B - LOC |
緊接著另一個地點名的地點名開頭 |
I - LOC |
地點 |
訓練過程
該模型在NVIDIA V100 GPU上使用HuggingFace代碼推薦的超參數進行訓練。
📄 許可證
本模型使用的許可證為afl - 3.0。