roberta-base-ca-cased-ner开源模型 - 免费实现加泰罗尼亚语命名实体识别

首页

Roberta Base Ca Cased Ner

由 projecte-aina 开发

针对加泰罗尼亚语的命名实体识别模型，基于BERTa微调而来

序列标注

Transformers

其他开源协议:Apache-2.0 #加泰罗尼亚语NER #高精度F1 #RoBERTa微调

下载量 141

发布时间 : 3/2/2022

模型简介

这是一个用于加泰罗尼亚语命名实体识别(NER)的模型，能够识别文本中的人名、地名、组织名等实体。

模型特点

高精度NER识别

在加泰罗尼亚语NER任务上达到88.13的F1值，优于多语言基线模型

专门针对加泰罗尼亚语优化

基于加泰罗尼亚语预训练模型BERTa微调，对加泰罗尼亚语文本有更好的理解

支持多种实体类型

能够识别PER(人名)、LOC(地名)、ORG(组织名)等多种实体类型

模型能力

加泰罗尼亚语文本处理

命名实体识别

实体分类

使用案例

文本分析

新闻文本实体提取

从加泰罗尼亚语新闻中提取人名、地名和组织名等关键信息

社交媒体分析

分析加泰罗尼亚语社交媒体内容中的提及实体

信息提取

文档自动化处理

自动处理加泰罗尼亚语文档，提取关键实体信息

🚀 加泰罗尼亚语命名实体识别微调模型（RoBERTa-base）

本项目的 roberta-base-ca-cased-ner 模型是一个用于加泰罗尼亚语的命名实体识别（NER）模型。它基于 BERTa 模型微调而来，而 BERTa 是一个在中等规模语料库上预训练的 RoBERTa 基础模型，该语料库来自公开可用的语料和网络爬虫。

🚀 快速开始

代码示例

pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "

ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)

[{'entity_group': 'PER', 'score': 0.9983406, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'ORG', 'score': 0.99790734, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'LOC', 'score': 0.98424107, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'MISC', 'score': 0.9963934, 'word': ' Seg', 'start': 91, 'end': 94}, {'entity_group': 'MISC', 'score': 0.97889286, 'word': 'unda Guerra Mundial', 'start': 94, 'end': 113}]

✨ 主要特性

针对性微调：基于加泰罗尼亚语进行命名实体识别任务的微调，更适配加泰罗尼亚语的语言特点。
模型基础优质：源自预训练的 BERTa 模型，具有较好的语言理解能力。

📦 安装指南

文档未提供具体安装步骤，可参考 Hugging Face 相关模型的通用安装方法。

💻 使用示例

基础用法

pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "

ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)

📚 详细文档

模型描述

roberta-base-ca-cased-ner 是一个用于加泰罗尼亚语的命名实体识别（NER）模型，它从 BERTa 模型微调而来，而 BERTa 是一个 RoBERTa 基础模型，在一个中等规模的语料库上进行了预训练，该语料库来自公开可用的语料和网络爬虫（更多细节可查看 BERTa 模型卡片）。

预期用途和局限性

文档未详细提及预期用途和局限性的具体内容。

训练

训练数据

使用了加泰罗尼亚语的 NER 数据集 Ancora-ca-ner 进行训练和评估。

训练过程

文档未详细提及训练过程的具体内容。

评估

变量和指标

使用 F1 指标进行评估。

评估结果

模型	Ancora-ca-ner (F1)
roberta-base-ca-cased-ner	88.13
mBERT	86.38
XLM-RoBERTa	87.66
WikiBERT-ca	77.66

更多细节可查看官方 GitHub 仓库中的微调与评估脚本。

额外信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc-temu@bsc.es）

联系信息

如需更多信息，请发送邮件至 aina@bsc.es

版权

许可信息

Apache 许可证，版本 2.0

资金支持

这项工作由 [加泰罗尼亚政府副主席兼数字与领土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架内资助。

引用信息

如果您在工作中使用了这些资源（数据集或模型），请引用我们的最新论文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}