cner-base開源命名實體識別模型 - 免費部署，精準識別分類細粒度實體

首頁

Cner Base

由Babelscape開發

CNER模型是一個基於DeBERTa-v3-base架構的命名實體識別模型，能夠聯合識別和分類帶有細粒度標籤的概念和命名實體。

序列標註

Transformers

英語#細粒度實體識別 #聯合概念分類 #DeBERTa優化

下載量 20.66k

發布時間 : 4/10/2024

模型概述

該模型在CNER數據集上進行了微調，用於識別文本中的概念和命名實體，並對其進行細粒度分類。

模型特點

細粒度實體識別

能夠識別並分類文本中的概念和命名實體，支持細粒度標籤。

聯合識別

可以同時識別概念和命名實體，無需分別處理。

基於DeBERTa-v3架構

採用先進的DeBERTa-v3-base模型作為基礎架構，具有強大的語言理解能力。

模型能力

命名實體識別

概念識別

序列標註

使用案例

信息提取

地理信息提取

從文本中識別地理實體如山脈、城市等

示例中正確識別了'北美洲'作為地理實體

知識圖譜構建

從文本中提取概念和實體用於構建知識圖譜

文本分析

文檔標註

自動標註文檔中的關鍵概念和實體

🚀 CNER：概念與命名實體識別

本項目聚焦於概念與命名實體識別，通過微調語言模型，能夠聯合識別並分類概念和命名實體，使用細粒度標籤進行標註，為自然語言處理領域的相關任務提供了有力支持。

🚀 快速開始

本項目是關於NAACL 2024論文CNER：概念與命名實體識別的模型卡片。我們使用Hugging Face的默認超參數、優化器和架構，在CNER數據集上對語言模型（DeBERTa - v3 - base）進行了1個epoch的微調，因此該模型的結果可能與論文中呈現的結果有所不同。最終得到的CNER模型能夠使用細粒度標籤聯合識別和分類概念與命名實體。

如果您使用了該模型，請在您的論文中引用此項工作：

@inproceedings{martinelli-etal-2024-cner,
    title = "{CNER}: Concept and Named Entity Recognition",
    author = "Martinelli, Giuliano  and
      Molfese, Francesco  and
      Tedeschi, Simone  and
      Fern{\'a}ndez-Castro, Alberte  and
      Navigli, Roberto",
    editor = "Duh, Kevin  and
      Gomez, Helena  and
      Bethard, Steven",
    booktitle = "Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)",
    month = jun,
    year = "2024",
    address = "Mexico City, Mexico",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.naacl-long.461",
    pages = "8329--8344",
}

論文的原始倉庫可在https://github.com/Babelscape/cner找到。

✨ 主要特性

能夠聯合識別和分類概念與命名實體。
使用細粒度標籤進行標註。

📦 安裝指南

暫未提及具體安裝步驟，可參考Hugging Face相關庫的安裝方式。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Babelscape/cner-model")
model = AutoModelForTokenClassification.from_pretrained("Babelscape/cner-model")

nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "What is the seventh tallest mountain in North America?"

ner_results = nlp(example)
print(ner_results)

📚 詳細文檔

類別

📄 許可證

此倉庫的內容僅可用於非商業研究目的，遵循知識共享署名 - 非商業性使用 - 相同方式共享4.0國際許可協議（CC BY - NC - SA 4.0）。數據集內容和模型的版權歸原始版權持有者所有。

microsoft/deberta - v3 - base根據MIT許可證發佈。

信息表格

屬性	詳情
標註創建者	機器生成
語言創建者	機器生成
標籤	命名實體識別、序列標註模型
數據集	Babelscape/cner
語言	英語
任務類別	結構預測
任務ID	命名實體識別