🚀 加泰羅尼亞語命名實體識別微調模型(roberta-base-ca-v2)
本項目基於 roberta-base-ca-v2 模型微調,實現加泰羅尼亞語的命名實體識別(NER)功能,為加泰羅尼亞語的文本處理提供了高效準確的解決方案。
🚀 快速開始
以下是使用此模型的示例代碼:
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="projecte-aina/roberta-base-ca-v2-cased-ner")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
ner_results = nlp(example)
pprint(ner_results)
[{'entity_group': 'person-other', 'score': 0.90749526, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'organization-other', 'score': 0.9260813, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'location-other', 'score': 0.992481, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'event-attack/terrorism/militaryconflict', 'score': 0.99319077, 'word': ' Segunda Guerra Mundial', 'start': 91, 'end': 113}]
✨ 主要特性
- 針對性微調:基於 roberta-base-ca-v2 模型進行微調,專門用於加泰羅尼亞語的命名實體識別任務。
- 高效準確:在 AnCora-Ca-NER 測試集上取得了 89.29 的 F1 分數,表現出色。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="projecte-aina/roberta-base-ca-v2-cased-ner")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
ner_results = nlp(example)
pprint(ner_results)
📚 詳細文檔
模型描述
roberta-base-ca-v2-cased-ner 是一個用於加泰羅尼亞語的命名實體識別(NER)模型,它基於 roberta-base-ca-v2 模型進行微調。roberta-base-ca-v2 是一個 RoBERTa 基礎模型,在一個從中等規模語料庫收集的公開可用語料和網絡爬蟲數據上進行了預訓練(更多詳細信息請查看 roberta-base-ca-v2 模型卡片)。
預期用途和限制
roberta-base-ca-v2-cased-ner 模型可用於識別給定文本中的命名實體。但該模型受其訓練數據集的限制,可能無法在所有用例中都有良好的泛化表現。
侷限性和偏差
在提交時,尚未採取措施來評估模型中嵌入的偏差。然而,我們深知由於語料庫是通過在多個網絡源上進行爬蟲技術收集的,我們的模型可能存在偏差。我們計劃在未來對這些領域進行研究,如果完成研究,此模型卡片將進行更新。
訓練
訓練數據
我們使用了加泰羅尼亞語的 NER 數據集 AnCora-Ca-NER 進行訓練和評估。
訓練過程
模型以 16 的批量大小和 5e-5 的學習率訓練了 5 個週期。然後,我們使用相應開發集中的下游任務指標選擇了最佳檢查點,並在測試集上進行了評估。
評估
變量和指標
此模型在微調時最大化了 F1 分數。
評估結果
我們在 AnCora-Ca-NER 測試集上對 roberta-base-ca-v2-cased-ner 與標準的多語言和單語言基線模型進行了評估:
模型 |
AnCora-Ca-NER (F1) |
roberta-base-ca-v2-cased-ner |
89.29 |
roberta-base-ca-cased-ner |
89.76 |
mBERT |
86.87 |
XLM-RoBERTa |
86.31 |
更多詳細信息,請查看官方 GitHub 倉庫 中的微調與評估腳本。
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc-temu@bsc.es)
聯繫信息
如需更多信息,請發送電子郵件至 aina@bsc.es
版權
版權所有 (c) 2022 巴塞羅那超級計算中心文本挖掘單元
許可信息
Apache 許可證,版本 2.0
資金支持
這項工作由 加泰羅尼亞政府副主席兼數字政策與領土部 在 Projecte AINA 框架內資助。
引用信息
如果您在工作中使用了這些資源(數據集或模型),請引用我們的最新論文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用這些模型所產生的風險是他們的責任,並且在任何情況下,都應遵守適用的法規,包括有關人工智能使用的法規。
在任何情況下,模型的所有者和創建者(巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。
🔧 技術細節
文檔未提供技術實現細節,故跳過此章節。
📄 許可證
本項目採用 Apache 許可證,版本 2.0。