🚀 加泰羅尼亞語命名實體識別微調模型(RoBERTa-base)
本項目的 roberta-base-ca-cased-ner 模型是一個用於加泰羅尼亞語的命名實體識別(NER)模型。它基於 BERTa 模型微調而來,而 BERTa 是一個在中等規模語料庫上預訓練的 RoBERTa 基礎模型,該語料庫來自公開可用的語料和網絡爬蟲。
🚀 快速開始
代碼示例
pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "
ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)
[{'entity_group': 'PER', 'score': 0.9983406, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'ORG', 'score': 0.99790734, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'LOC', 'score': 0.98424107, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'MISC', 'score': 0.9963934, 'word': ' Seg', 'start': 91, 'end': 94}, {'entity_group': 'MISC', 'score': 0.97889286, 'word': 'unda Guerra Mundial', 'start': 94, 'end': 113}]
✨ 主要特性
- 針對性微調:基於加泰羅尼亞語進行命名實體識別任務的微調,更適配加泰羅尼亞語的語言特點。
- 模型基礎優質:源自預訓練的 BERTa 模型,具有較好的語言理解能力。
📦 安裝指南
文檔未提供具體安裝步驟,可參考 Hugging Face 相關模型的通用安裝方法。
💻 使用示例
基礎用法
pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "
ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)
📚 詳細文檔
模型描述
roberta-base-ca-cased-ner 是一個用於加泰羅尼亞語的命名實體識別(NER)模型,它從 BERTa 模型微調而來,而 BERTa 是一個 RoBERTa 基礎模型,在一箇中等規模的語料庫上進行了預訓練,該語料庫來自公開可用的語料和網絡爬蟲(更多細節可查看 BERTa 模型卡片)。
預期用途和侷限性
文檔未詳細提及預期用途和侷限性的具體內容。
訓練
訓練數據
使用了加泰羅尼亞語的 NER 數據集 Ancora-ca-ner 進行訓練和評估。
訓練過程
文檔未詳細提及訓練過程的具體內容。
評估
變量和指標
使用 F1 指標進行評估。
評估結果
模型 |
Ancora-ca-ner (F1) |
roberta-base-ca-cased-ner |
88.13 |
mBERT |
86.38 |
XLM-RoBERTa |
87.66 |
WikiBERT-ca |
77.66 |
更多細節可查看官方 GitHub 倉庫 中的微調與評估腳本。
額外信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc-temu@bsc.es)
聯繫信息
如需更多信息,請發送郵件至 aina@bsc.es
版權
版權所有 (c) 2021 巴塞羅那超級計算中心的文本挖掘單元
許可信息
Apache 許可證,版本 2.0
資金支持
這項工作由 [加泰羅尼亞政府副主席兼數字與領土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架內資助。
引用信息
如果您在工作中使用了這些資源(數據集或模型),請引用我們的最新論文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)向其他方部署或提供系統和/或服務,或成為這些模型的用戶時,他們應注意,減輕使用這些模型所產生的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。