roberta-base-ca-cased-pos開源模型 - 免費部署加泰羅尼亞語詞性標註工具

首頁

Roberta Base Ca Cased Pos

由projecte-aina開發

用於加泰羅尼亞語的詞性標註(POS)模型，基於roberta-base-ca模型微調而來

序列標註

Transformers

其他開源協議:Apache-2.0 #加泰羅尼亞語詞性標註 #高精度POS #RoBERTa微調

下載量 26

發布時間 : 3/2/2022

模型概述

該模型是一個專門用於加泰羅尼亞語詞性標註的RoBERTa模型，在Universal Dependencies Treebank的加泰羅尼亞語POS數據集上進行了微調。

模型特點

高精度詞性標註

在Ancora-ca-POS測試集上達到98.93的F1分數

專門針對加泰羅尼亞語優化

基於roberta-base-ca模型微調，專門處理加泰羅尼亞語特性

多領域適用

訓練數據來自多個網絡源，適用於多種文本類型

模型能力

加泰羅尼亞語詞性標註

文本標記分類

使用案例

自然語言處理

文本分析

對加泰羅尼亞語文本進行詞性標註分析

準確識別文本中各詞彙的詞性

語言學研究

用於加泰羅尼亞語語法研究和分析

🚀 加泰羅尼亞語詞性標註微調版BERT模型（roberta-base-ca）

本模型基於RoBERTa架構，在加泰羅尼亞語語料上預訓練後，針對詞性標註（POS）任務進行微調。它能有效對加泰羅尼亞語文本進行詞性標註，為相關自然語言處理任務提供支持。

🚀 快速開始

代碼示例

from transformers import pipeline
from pprint import pprint

nlp = pipeline("token-classification", model="projecte-aina/roberta-base-ca-cased-pos")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."

pos_results = nlp(example)
pprint(pos_results)

✨ 主要特性

針對性微調：基於roberta-base-ca模型，針對加泰羅尼亞語的詞性標註任務進行微調，更適配該語言的詞性標註需求。
高性能表現：在Ancora-ca-POS測試集上，F1分數達到98.93，優於mBERT、XLM - RoBERTa和WikiBERT-ca等模型。

🔧 技術細節

訓練數據

使用來自通用依存樹庫的加泰羅尼亞語詞性標註數據集，即 Ancora-ca-pos 進行訓練和評估。

訓練過程

模型以16的批量大小和5e - 5的學習率訓練5個週期。然後，在相應的開發集上使用下游任務指標選擇最佳檢查點，並在測試集上進行評估。

評估指標

該模型在微調過程中最大化F1分數。

評估結果

在Ancora-ca-ner測試集上，與標準的多語言和單語言基線模型進行對比評估，結果如下：

模型	AnCora-Ca-POS (F1)
roberta-base-ca-cased-pos	98.93
mBERT	98.82
XLM-RoBERTa	98.89
WikiBERT-ca	97.60

更多詳細信息，請查看官方GitHub倉庫中的微調與評估腳本。

📄 許可證

本模型遵循Apache許可證2.0版。

👨‍💻 作者信息

作者

巴塞羅那超級計算中心的文本挖掘單元（TeMU）（bsc-temu@bsc.es）

聯繫方式

如需更多信息，請發送郵件至aina@bsc.es

版權信息

資金支持

本工作由[加泰羅尼亞政府副主席兼數字與領土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在AINA項目框架內資助。

引用信息

如果您在工作中使用了這些資源（數據集或模型），請引用我們的最新論文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}