NERmemberta-3entities開源法語命名實體識別模型 - 免費部署支持三類實體識別

首頁

Nermemberta 3entities

由CATIE-AQ開發

基於CamemBERTa v2微調的法語命名實體識別模型，支持LOC/PER/ORG三類實體識別

序列標註

Transformers

法語開源協議:MIT #法語命名實體識別 #三實體分類 #CamemBERTa微調

下載量 124

發布時間 : 11/20/2024

模型概述

專用於法語命名實體識別任務的BERT模型，在整合的420,264條法語數據上微調，可識別地點、人物、機構三類實體

模型特點

多數據集整合訓練

融合五個法語NER數據集，經清洗後形成統一訓練集（346,071條數據）

高效碳排放

訓練過程僅產生0.0335 kg CO2當量排放（基於法國電網係數計算）

即用型API

提供Hugging Face pipeline集成和在線演示空間

模型能力

法語命名實體識別

LOC/PER/ORG實體分類

文本標記分類

使用案例

信息提取

新聞實體分析

從法語新聞文本中提取關鍵實體（如奧運會相關機構、設計師姓名等）

可準確識別如'大雷克斯劇院(LOC)'、'Sylvain Boyer(PER)'等實體

知識圖譜構建

實體關係挖掘

作為知識圖譜構建的前置處理工具

🚀 NERmemBERTa-3entities

NERmemBERTa-3entities 是一個基於 CamemBERTa v2 base 微調的模型，專門用於法語的命名實體識別（NER）任務。它在五個法語 NER 數據集上進行訓練，以識別三種實體類型（LOC、PER、ORG）。

🚀 快速開始

代碼示例

from transformers import pipeline

ner = pipeline('token-classification', model='CATIE-AQ/NERmemberta-base-3entities', tokenizer='CATIE-AQ/NERmemberta-base-3entities', aggregation_strategy="simple")

result = ner(
"Le dévoilement du logo officiel des JO s'est déroulé le 21 octobre 2019 au Grand Rex. Ce nouvel emblème et cette nouvelle typographie ont été conçus par le designer Sylvain Boyer avec les agences Royalties & Ecobranding. Rond, il rassemble trois symboles : une médaille d'or, la flamme olympique et Marianne, symbolisée par un visage de femme mais privée de son bonnet phrygien caractéristique. La typographie dessinée fait référence à l'Art déco, mouvement artistique des années 1920, décennie pendant laquelle ont eu lieu pour la dernière fois les Jeux olympiques à Paris en 1924. Pour la première fois, ce logo sera unique pour les Jeux olympiques et les Jeux paralympiques."
)

print(result)

通過 Space 試用

可以通過這裡的 Space 來測試該模型。

✨ 主要特性

多數據集訓練：在五個法語 NER 數據集上進行訓練，數據總量超過 420,264 行。
高準確率：在多個評估指標上表現出色，如 F1 分數。
支持三種實體類型：能夠識別 LOC（地點）、PER（人物）和 ORG（組織）三種實體類型。

📚 詳細文檔

模型描述

我們推出的 NERmemBERTa-3entities 是在 CamemBERTa v2 base 基礎上進行微調的，用於法語的命名實體識別任務。它在五個法語 NER 數據集上進行訓練，針對三種實體（LOC、PER、ORG）。所有這些數據集被合併並清理成一個單一的數據集，我們稱之為 frenchNER_3entities。這總共包含超過 420,264 行數據，其中 346,071 行用於訓練，32,951 行用於驗證，41,242 行用於測試。我們的方法在一篇博客文章中有詳細描述，可查看英文版本或法文版本。