🚀 加泰羅尼亞語詞性標註微調版BERT模型(roberta-base-ca)
本模型基於RoBERTa架構,在加泰羅尼亞語語料上預訓練後,針對詞性標註(POS)任務進行微調。它能有效對加泰羅尼亞語文本進行詞性標註,為相關自然語言處理任務提供支持。
🚀 快速開始
代碼示例
from transformers import pipeline
from pprint import pprint
nlp = pipeline("token-classification", model="projecte-aina/roberta-base-ca-cased-pos")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
pos_results = nlp(example)
pprint(pos_results)
✨ 主要特性
- 針對性微調:基於roberta-base-ca模型,針對加泰羅尼亞語的詞性標註任務進行微調,更適配該語言的詞性標註需求。
- 高性能表現:在Ancora-ca-POS測試集上,F1分數達到98.93,優於mBERT、XLM - RoBERTa和WikiBERT-ca等模型。
🔧 技術細節
訓練數據
使用來自通用依存樹庫的加泰羅尼亞語詞性標註數據集,即 Ancora-ca-pos 進行訓練和評估。
訓練過程
模型以16的批量大小和5e - 5的學習率訓練5個週期。然後,在相應的開發集上使用下游任務指標選擇最佳檢查點,並在測試集上進行評估。
評估指標
該模型在微調過程中最大化F1分數。
評估結果
在Ancora-ca-ner測試集上,與標準的多語言和單語言基線模型進行對比評估,結果如下:
模型 |
AnCora-Ca-POS (F1) |
roberta-base-ca-cased-pos |
98.93 |
mBERT |
98.82 |
XLM-RoBERTa |
98.89 |
WikiBERT-ca |
97.60 |
更多詳細信息,請查看官方GitHub倉庫中的微調與評估腳本。
📄 許可證
本模型遵循Apache許可證2.0版。
👨💻 作者信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc-temu@bsc.es)
聯繫方式
如需更多信息,請發送郵件至aina@bsc.es
版權信息
版權所有 (c) 2022 巴塞羅那超級計算中心文本挖掘單元
資金支持
本工作由[加泰羅尼亞政府副主席兼數字與領土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在AINA項目框架內資助。
引用信息
如果您在工作中使用了這些資源(數據集或模型),請引用我們的最新論文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良失真。
當第三方使用這些模型(或基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用這些模型帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者和創建者(巴塞羅那超級計算中心)均不對第三方使用這些模型所產生的任何結果負責。