cner-base开源命名实体识别模型 - 免费部署，精准识别分类细粒度实体

首页

Cner Base

由 Babelscape 开发

CNER模型是一个基于DeBERTa-v3-base架构的命名实体识别模型，能够联合识别和分类带有细粒度标签的概念和命名实体。

序列标注

Transformers

英语#细粒度实体识别 #联合概念分类 #DeBERTa优化

下载量 20.66k

发布时间 : 4/10/2024

模型简介

该模型在CNER数据集上进行了微调，用于识别文本中的概念和命名实体，并对其进行细粒度分类。

模型特点

细粒度实体识别

能够识别并分类文本中的概念和命名实体，支持细粒度标签。

联合识别

可以同时识别概念和命名实体，无需分别处理。

基于DeBERTa-v3架构

采用先进的DeBERTa-v3-base模型作为基础架构，具有强大的语言理解能力。

模型能力

命名实体识别

概念识别

序列标注

使用案例

信息提取

地理信息提取

从文本中识别地理实体如山脉、城市等

示例中正确识别了'北美洲'作为地理实体

知识图谱构建

从文本中提取概念和实体用于构建知识图谱

文本分析

文档标注

自动标注文档中的关键概念和实体

🚀 CNER：概念与命名实体识别

本项目聚焦于概念与命名实体识别，通过微调语言模型，能够联合识别并分类概念和命名实体，使用细粒度标签进行标注，为自然语言处理领域的相关任务提供了有力支持。

🚀 快速开始

本项目是关于NAACL 2024论文CNER：概念与命名实体识别的模型卡片。我们使用Hugging Face的默认超参数、优化器和架构，在CNER数据集上对语言模型（DeBERTa - v3 - base）进行了1个epoch的微调，因此该模型的结果可能与论文中呈现的结果有所不同。最终得到的CNER模型能够使用细粒度标签联合识别和分类概念与命名实体。

如果您使用了该模型，请在您的论文中引用此项工作：

@inproceedings{martinelli-etal-2024-cner,
    title = "{CNER}: Concept and Named Entity Recognition",
    author = "Martinelli, Giuliano  and
      Molfese, Francesco  and
      Tedeschi, Simone  and
      Fern{\'a}ndez-Castro, Alberte  and
      Navigli, Roberto",
    editor = "Duh, Kevin  and
      Gomez, Helena  and
      Bethard, Steven",
    booktitle = "Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)",
    month = jun,
    year = "2024",
    address = "Mexico City, Mexico",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.naacl-long.461",
    pages = "8329--8344",
}

论文的原始仓库可在https://github.com/Babelscape/cner找到。

✨ 主要特性

能够联合识别和分类概念与命名实体。
使用细粒度标签进行标注。

📦 安装指南

暂未提及具体安装步骤，可参考Hugging Face相关库的安装方式。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Babelscape/cner-model")
model = AutoModelForTokenClassification.from_pretrained("Babelscape/cner-model")

nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "What is the seventh tallest mountain in North America?"

ner_results = nlp(example)
print(ner_results)

📚 详细文档

类别

📄 许可证

此仓库的内容仅可用于非商业研究目的，遵循知识共享署名 - 非商业性使用 - 相同方式共享4.0国际许可协议（CC BY - NC - SA 4.0）。数据集内容和模型的版权归原始版权持有者所有。

microsoft/deberta - v3 - base根据MIT许可证发布。

信息表格

属性	详情
标注创建者	机器生成
语言创建者	机器生成
标签	命名实体识别、序列标注模型
数据集	Babelscape/cner
语言	英语
任务类别	结构预测
任务ID	命名实体识别