bert-large-uncased-finetuned-ner開源模型 - 免費部署精準命名實體識別

首頁

Bert Large Uncased Finetuned Ner

由Jorgeutd開發

基於bert-large-uncased在conll2003數據集上微調的命名實體識別模型

序列標註

Transformers

英語開源協議:Apache-2.0 #高精度NER #新聞領域實體識別 #BERT微調

下載量 1,712

發布時間 : 3/2/2022

模型概述

該模型是一個用於命名實體識別(NER)任務的BERT模型，在conll2003數據集上進行了微調，能夠識別文本中的人名、地名、組織名等實體。

模型特點

高精度實體識別

在conll2003數據集上取得了95.05%的精確率和95.75%的召回率

基於BERT-large架構

使用bert-large-uncased作為基礎模型，具有更強的語義理解能力

專業領域適應

針對新聞領域的實體識別進行了專門優化

模型能力

識別文本中的人名

識別文本中的地名

識別文本中的組織名

處理英語文本

使用案例

信息提取

新聞文章實體提取

從新聞文章中提取人名、地名和組織名等關鍵實體信息

可幫助快速理解新聞內容的關鍵元素

客戶服務自動化

從客戶投訴或諮詢文本中提取關鍵實體信息

提高客戶服務系統的自動化處理能力

知識圖譜構建

實體關係抽取

作為知識圖譜構建的第一步，識別文本中的關鍵實體

為後續實體關係分析提供基礎

🚀 大型無大小寫區分的BERT模型微調命名實體識別

此模型是在CoNLL2003數據集上對bert-large-uncased進行微調後的版本。它在評估集上取得了以下效果：

損失值：0.0778
精確率：0.9505
召回率：0.9575
F1值：0.9540
準確率：0.9886

🚀 快速開始

本模型可通過Transformers的 pipeline 用於命名實體識別（NER）。

基礎用法

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
model = AutoModelForTokenClassification.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Scott and I live in Ohio"
ner_results = nlp(example)
print(ner_results)

✨ 主要特性

基於大型無大小寫區分的BERT模型進行微調，在CoNLL2003數據集上有良好表現。
能夠對文本中的命名實體進行有效識別。

📦 安裝指南

文檔未提供安裝相關內容，暫不展示。

💻 使用示例

基礎用法

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
model = AutoModelForTokenClassification.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Scott and I live in Ohio"
ner_results = nlp(example)
print(ner_results)

📚 詳細文檔

模型描述

需要更多信息。

侷限性和偏差

此模型受其訓練數據集的限制，該數據集為特定時間段內帶有實體標註的新聞文章。這可能導致它在不同領域的所有用例中泛化能力不佳。此外，模型偶爾會將子詞標記為實體，可能需要對結果進行後處理以處理這些情況。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：2e - 05
訓練批次大小：16
評估批次大小：64
隨機種子：42
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
訓練輪數：10

訓練結果

訓練損失	輪數	步數	驗證損失	精確率	召回率	F1值	準確率
0.1997	1.0	878	0.0576	0.9316	0.9257	0.9286	0.9837
0.04	2.0	1756	0.0490	0.9400	0.9513	0.9456	0.9870
0.0199	3.0	2634	0.0557	0.9436	0.9540	0.9488	0.9879
0.0112	4.0	3512	0.0602	0.9443	0.9569	0.9506	0.9881
0.0068	5.0	4390	0.0631	0.9451	0.9589	0.9520	0.9882
0.0044	6.0	5268	0.0638	0.9510	0.9567	0.9538	0.9885
0.003	7.0	6146	0.0722	0.9495	0.9560	0.9527	0.9885
0.0016	8.0	7024	0.0762	0.9491	0.9595	0.9543	0.9887
0.0018	9.0	7902	0.0769	0.9496	0.9542	0.9519	0.9883
0.0009	10.0	8780	0.0778	0.9505	0.9575	0.9540	0.9886