ner-roberta-base-ontonotesv5-englishv4開源模型 - 免費部署識別18種英文實體類型

首頁

Ner Roberta Base Ontonotesv5 Englishv4

由djagatiya開發

基於RoBERTa-base架構微調的英文命名實體識別模型，支持18種實體類型識別

序列標註

Transformers

#高精度實體識別 #多類別NER #英語文本分析

下載量 47

發布時間 : 7/1/2022

模型概述

該模型專門用於英文文本中的命名實體識別任務，能夠識別包括人物、地點、組織、日期、貨幣等18種實體類型。

模型特點

多類別實體識別

支持18種實體類型識別，包括地緣政體、人物、組織等專業領域實體

高精度識別

在ontonotesv5測試集上達到89.78的F1分數，關鍵實體類型如人物識別F1達95分

預訓練模型微調

基於RoBERTa-base強大語言表示能力進行領域適配

模型能力

英文文本實體識別

多類型實體分類

上下文相關實體解析

使用案例

信息提取

新聞內容分析

從新聞文本中提取關鍵實體(人物/組織/地點)

示例中成功識別'印度'為地緣政體實體

金融文檔處理

金融交易記錄解析

識別交易記錄中的金額、日期等關鍵信息

示例中準確識別'1美元'為貨幣類型

🚀 (NER) roberta-base : conll2012_ontonotesv5-english-v4

本roberta-base命名實體識別（NER）模型在conll2012_ontonotesv5的english-v4版本數據集上進行了微調。
更多信息請查看NER-System倉庫。

🚀 快速開始

本roberta-base命名實體識別（NER）模型專為解決英文文本中的實體識別問題而設計。它在conll2012_ontonotesv5的english-v4版本數據集上進行了微調，能夠準確識別多種類型的實體，為信息提取和文本分析提供了強大的支持。

✨ 主要特性

基於特定數據集微調：在conll2012_ontonotesv5的english-v4版本數據集上進行微調，更適配英文實體識別任務。
多指標評估表現良好：在精確率、召回率和F1分數等評估指標上都有不錯的表現。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import pipeline

ner_pipeline = pipeline(
    'token-classification', 
    model=r'djagatiya/ner-roberta-base-ontonotesv5-englishv4',
    aggregation_strategy='simple'
)

高級用法

# 測試用例1
ner_pipeline("India is a beautiful country")

# 測試用例1輸出
[{'entity_group': 'GPE',
  'score': 0.99186057,
  'word': ' India',
  'start': 0,
  'end': 5}]

# 測試用例2
ner_pipeline("On September 1st George won 1 dollar while watching Game of Thrones.")

# 測試用例2輸出
[{'entity_group': 'DATE',
  'score': 0.99720246,
  'word': ' September 1st',
  'start': 3,
  'end': 16},
 {'entity_group': 'PERSON',
  'score': 0.99071586,
  'word': ' George',
  'start': 17,
  'end': 23},
 {'entity_group': 'MONEY',
  'score': 0.9872978,
  'word': ' 1 dollar',
  'start': 28,
  'end': 36},
 {'entity_group': 'WORK_OF_ART',
  'score': 0.9946732,
  'word': ' Game of Thrones',
  'start': 52,
  'end': 67}]

📚 詳細文檔

數據集

conll2012_ontonotesv5
- 語言：英語
- 版本：v4

數據集	示例數量
訓練集	75187
測試集	9479

評估

精確率：88.88
召回率：90.69
F1分數：89.78

查看eval.log文件獲取評估指標和分類報告。

                precision    recall  f1-score   support

    CARDINAL       0.84      0.85      0.85       935
        DATE       0.85      0.90      0.87      1602
       EVENT       0.67      0.76      0.71        63
         FAC       0.74      0.72      0.73       135
         GPE       0.97      0.96      0.96      2240
    LANGUAGE       0.83      0.68      0.75        22
         LAW       0.66      0.62      0.64        40
         LOC       0.74      0.80      0.77       179
       MONEY       0.85      0.89      0.87       314
        NORP       0.93      0.96      0.95       841
     ORDINAL       0.81      0.89      0.85       195
         ORG       0.90      0.91      0.91      1795
     PERCENT       0.90      0.92      0.91       349
      PERSON       0.95      0.95      0.95      1988
     PRODUCT       0.74      0.83      0.78        76
    QUANTITY       0.76      0.80      0.78       105
        TIME       0.62      0.67      0.65       212
 WORK_OF_ART       0.58      0.69      0.63       166

   micro avg       0.89      0.91      0.90     11257
   macro avg       0.80      0.82      0.81     11257
weighted avg       0.89      0.91      0.90     11257