roberta-large-ner-english開源英語命名實體識別模型

首頁

Roberta Large Ner English

由Jean-Baptiste開發

基於RoBERTa-large微調的英語命名實體識別模型，在conll2003數據集上訓練，特別優化了電子郵件/聊天數據的實體識別能力。

序列標註

Transformers

英語開源協議:MIT #非正式文本NER #RoBERTa-large微調 #郵件聊天實體識別

下載量 236.85k

發布時間 : 3/2/2022

模型概述

該模型專注於英語命名實體識別任務，尤其擅長處理非正式文本（如郵件/聊天）中的實體識別，對非首字母大寫的實體識別效果更佳。

模型特點

優化的非正式文本處理

在電子郵件和聊天數據上驗證，表現優於其他模型，特別適合處理非正式文本。

非首字母大寫實體識別

對非首字母大寫的實體識別效果顯著優於其他模型。

簡化的標籤體系

移除了B-和I-前綴，使用簡化的PER/ORG/LOC/MISC/O五類標籤體系。

模型能力

英語命名實體識別

非正式文本處理

多類別實體分類

使用案例

文本分析

電子郵件簽名檢測

識別電子郵件中的簽名部分和包含的人名、職位等信息

可用於訓練LSTM模型進行簽名檢測（參考提供的Medium文章）

聊天記錄分析

從即時通訊或聊天記錄中提取人名、組織名和地點等信息

在私有數據集上PER實體F1值達0.8967

信息提取

新聞文本分析

從新聞文章中提取人名、組織名和地點等關鍵信息

在conll2003驗證集上綜合F1值達0.9753

🚀 roberta-large-ner-english：基於roberta-large針對命名實體識別（NER）任務微調的模型

[roberta-large-ner-english] 是一個英文命名實體識別（NER）模型，它基於 roberta-large 在 conll2003 數據集上進行了微調。該模型在電子郵件/聊天數據上進行了驗證，尤其在這類數據上的表現優於其他模型。特別是，該模型在處理不以大寫字母開頭的實體時似乎效果更好。

✨ 主要特性

基於 roberta-large 微調，在 conll2003 數據集上訓練。
在電子郵件/聊天數據上驗證，對特定類型數據表現出色。
對不以大寫字母開頭的實體處理效果更佳。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 Hugging Face 相關庫的安裝方法。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/roberta-large-ner-english")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/roberta-large-ner-english")

# Process text sample (from wikipedia)
from transformers import pipeline

nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("Apple was founded in 1976 by Steve Jobs, Steve Wozniak and Ronald Wayne to develop and sell Wozniak's Apple I personal computer")

高級用法

# 高級用法可根據具體需求對模型進行進一步配置和使用，例如調整聚合策略等。
# 這裡展示的代碼與基礎用法類似，可根據實際情況修改
from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/roberta-large-ner-english")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/roberta-large-ner-english")

from transformers import pipeline

# 可嘗試不同的聚合策略
nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="first")
nlp("Apple was founded in 1976 by Steve Jobs, Steve Wozniak and Ronald Wayne to develop and sell Wozniak's Apple I personal computer")

📚 詳細文檔

訓練數據

訓練數據的分類如下：

縮寫	描述
O	命名實體之外
MISC	其他雜項實體
PER	人名
ORG	組織
LOC	地點

為了簡化，原 conll2003 數據集中的前綴 B- 或 I- 被移除。使用原 conll2003 數據集的訓練集和測試集進行訓練，使用 “驗證” 數據集進行驗證，得到的數據集規模如下：

訓練集	驗證集
17494	3250

模型性能

在 conll2003 驗證數據集上計算的模型性能（基於標記預測）：

實體	精確率	召回率	F1值
PER	0.9914	0.9927	0.9920
ORG	0.9627	0.9661	0.9644
LOC	0.9795	0.9862	0.9828
MISC	0.9292	0.9262	0.9277
總體	0.9740	0.9766	0.9753

在私有數據集（電子郵件、聊天、非正式討論）上基於單詞預測計算的性能：

實體	精確率	召回率	F1值
PER	0.8823	0.9116	0.8967
ORG	0.7694	0.7292	0.7487
LOC	0.8619	0.7768	0.8171

相比之下，在相同的私有數據集上，Spacy (en_core_web_trf-3.2.0) 的表現如下：

實體	精確率	召回率	F1值
PER	0.9146	0.8287	0.8695
ORG	0.7655	0.6437	0.6993
LOC	0.8727	0.6180	0.7236

對於感興趣的人，這裡有一篇關於如何使用該模型的結果來訓練用於電子郵件簽名檢測的 LSTM 模型的短文：LSTM model for email signature detection

📄 許可證

本項目採用 MIT 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫