roberta-base-ca-cased-ner開源模型 - 免費實現加泰羅尼亞語命名實體識別

首頁

Roberta Base Ca Cased Ner

由projecte-aina開發

針對加泰羅尼亞語的命名實體識別模型，基於BERTa微調而來

序列標註

Transformers

其他開源協議:Apache-2.0 #加泰羅尼亞語NER #高精度F1 #RoBERTa微調

下載量 141

發布時間 : 3/2/2022

模型概述

這是一個用於加泰羅尼亞語命名實體識別(NER)的模型，能夠識別文本中的人名、地名、組織名等實體。

模型特點

高精度NER識別

在加泰羅尼亞語NER任務上達到88.13的F1值，優於多語言基線模型

專門針對加泰羅尼亞語優化

基於加泰羅尼亞語預訓練模型BERTa微調，對加泰羅尼亞語文本有更好的理解

支持多種實體類型

能夠識別PER(人名)、LOC(地名)、ORG(組織名)等多種實體類型

模型能力

加泰羅尼亞語文本處理

命名實體識別

實體分類

使用案例

文本分析

新聞文本實體提取

從加泰羅尼亞語新聞中提取人名、地名和組織名等關鍵信息

社交媒體分析

分析加泰羅尼亞語社交媒體內容中的提及實體

信息提取

文檔自動化處理

自動處理加泰羅尼亞語文檔，提取關鍵實體信息

🚀 加泰羅尼亞語命名實體識別微調模型（RoBERTa-base）

本項目的 roberta-base-ca-cased-ner 模型是一個用於加泰羅尼亞語的命名實體識別（NER）模型。它基於 BERTa 模型微調而來，而 BERTa 是一個在中等規模語料庫上預訓練的 RoBERTa 基礎模型，該語料庫來自公開可用的語料和網絡爬蟲。

🚀 快速開始

代碼示例

pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "

ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)

[{'entity_group': 'PER', 'score': 0.9983406, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'ORG', 'score': 0.99790734, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'LOC', 'score': 0.98424107, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'MISC', 'score': 0.9963934, 'word': ' Seg', 'start': 91, 'end': 94}, {'entity_group': 'MISC', 'score': 0.97889286, 'word': 'unda Guerra Mundial', 'start': 94, 'end': 113}]

✨ 主要特性

針對性微調：基於加泰羅尼亞語進行命名實體識別任務的微調，更適配加泰羅尼亞語的語言特點。
模型基礎優質：源自預訓練的 BERTa 模型，具有較好的語言理解能力。

📦 安裝指南

文檔未提供具體安裝步驟，可參考 Hugging Face 相關模型的通用安裝方法。

💻 使用示例

基礎用法

pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "

ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)

📚 詳細文檔

模型描述

roberta-base-ca-cased-ner 是一個用於加泰羅尼亞語的命名實體識別（NER）模型，它從 BERTa 模型微調而來，而 BERTa 是一個 RoBERTa 基礎模型，在一箇中等規模的語料庫上進行了預訓練，該語料庫來自公開可用的語料和網絡爬蟲（更多細節可查看 BERTa 模型卡片）。

預期用途和侷限性

文檔未詳細提及預期用途和侷限性的具體內容。

訓練

訓練數據

使用了加泰羅尼亞語的 NER 數據集 Ancora-ca-ner 進行訓練和評估。

訓練過程

文檔未詳細提及訓練過程的具體內容。

評估

變量和指標

使用 F1 指標進行評估。

評估結果

模型	Ancora-ca-ner (F1)
roberta-base-ca-cased-ner	88.13
mBERT	86.38
XLM-RoBERTa	87.66
WikiBERT-ca	77.66

更多細節可查看官方 GitHub 倉庫中的微調與評估腳本。

額外信息

作者

巴塞羅那超級計算中心的文本挖掘單元（TeMU）（bsc-temu@bsc.es）

聯繫信息

如需更多信息，請發送郵件至 aina@bsc.es

版權

許可信息

Apache 許可證，版本 2.0

資金支持

這項工作由 [加泰羅尼亞政府副主席兼數字與領土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架內資助。

引用信息

如果您在工作中使用了這些資源（數據集或模型），請引用我們的最新論文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}