NERmemberta-3entities开源法语命名实体识别模型 - 免费部署支持三类实体识别

首页

Nermemberta 3entities

由 CATIE-AQ 开发

基于CamemBERTa v2微调的法语命名实体识别模型，支持LOC/PER/ORG三类实体识别

序列标注

Transformers

法语开源协议:MIT #法语命名实体识别 #三实体分类 #CamemBERTa微调

下载量 124

发布时间 : 11/20/2024

模型简介

专用于法语命名实体识别任务的BERT模型，在整合的420,264条法语数据上微调，可识别地点、人物、机构三类实体

模型特点

多数据集整合训练

融合五个法语NER数据集，经清洗后形成统一训练集（346,071条数据）

高效碳排放

训练过程仅产生0.0335 kg CO2当量排放（基于法国电网系数计算）

即用型API

提供Hugging Face pipeline集成和在线演示空间

模型能力

法语命名实体识别

LOC/PER/ORG实体分类

文本标记分类

使用案例

信息提取

新闻实体分析

从法语新闻文本中提取关键实体（如奥运会相关机构、设计师姓名等）

可准确识别如'大雷克斯剧院(LOC)'、'Sylvain Boyer(PER)'等实体

知识图谱构建

实体关系挖掘

作为知识图谱构建的前置处理工具

🚀 NERmemBERTa-3entities

NERmemBERTa-3entities 是一个基于 CamemBERTa v2 base 微调的模型，专门用于法语的命名实体识别（NER）任务。它在五个法语 NER 数据集上进行训练，以识别三种实体类型（LOC、PER、ORG）。

🚀 快速开始

代码示例

from transformers import pipeline

ner = pipeline('token-classification', model='CATIE-AQ/NERmemberta-base-3entities', tokenizer='CATIE-AQ/NERmemberta-base-3entities', aggregation_strategy="simple")

result = ner(
"Le dévoilement du logo officiel des JO s'est déroulé le 21 octobre 2019 au Grand Rex. Ce nouvel emblème et cette nouvelle typographie ont été conçus par le designer Sylvain Boyer avec les agences Royalties & Ecobranding. Rond, il rassemble trois symboles : une médaille d'or, la flamme olympique et Marianne, symbolisée par un visage de femme mais privée de son bonnet phrygien caractéristique. La typographie dessinée fait référence à l'Art déco, mouvement artistique des années 1920, décennie pendant laquelle ont eu lieu pour la dernière fois les Jeux olympiques à Paris en 1924. Pour la première fois, ce logo sera unique pour les Jeux olympiques et les Jeux paralympiques."
)

print(result)

通过 Space 试用

可以通过这里的 Space 来测试该模型。

✨ 主要特性

多数据集训练：在五个法语 NER 数据集上进行训练，数据总量超过 420,264 行。
高准确率：在多个评估指标上表现出色，如 F1 分数。
支持三种实体类型：能够识别 LOC（地点）、PER（人物）和 ORG（组织）三种实体类型。

📚 详细文档

模型描述

我们推出的 NERmemBERTa-3entities 是在 CamemBERTa v2 base 基础上进行微调的，用于法语的命名实体识别任务。它在五个法语 NER 数据集上进行训练，针对三种实体（LOC、PER、ORG）。所有这些数据集被合并并清理成一个单一的数据集，我们称之为 frenchNER_3entities。这总共包含超过 420,264 行数据，其中 346,071 行用于训练，32,951 行用于验证，41,242 行用于测试。我们的方法在一篇博客文章中有详细描述，可查看英文版本或法文版本。