xlm-roberta-base-ft-udpos28-ca开源多语言词性标注模型

首页

Xlm Roberta Base Ft Udpos28 Ca

由 wietsedv 开发

基于XLM-RoBERTa的多语言词性标注模型，支持加泰罗尼亚语等多种语言

序列标注

Transformers

其他开源协议:Apache-2.0 #多语言词性标注 #高准确率 #加泰罗尼亚语优化

下载量 24

发布时间 : 3/2/2022

模型简介

该模型是基于XLM-RoBERTa架构的多语言词性标注模型，专门针对加泰罗尼亚语优化，能够准确识别文本中单词的词性类别。

模型特点

多语言支持

基于XLM-RoBERTa架构，具备强大的跨语言迁移能力

高准确率

在加泰罗尼亚语词性标注任务上达到98.7%的准确率

通用依存关系库兼容

基于Universal Dependencies v2.8数据集训练

模型能力

词性标注

多语言文本处理

语法分析

使用案例

自然语言处理

文本预处理

为下游NLP任务提供词性标注预处理

提高后续语法分析、命名实体识别等任务的准确性

语言学研究

用于语言学研究和语法分析

帮助研究者分析加泰罗尼亚语的语法结构

🚀 XLM-RoBERTa基础通用依存关系v2.8词性标注：加泰罗尼亚语

该模型用于解决跨语言词性标注问题，在多种语言上进行训练和测试，能有效提升词性标注的准确性，为自然语言处理任务提供支持。

🚀 快速开始

该模型是论文“Make the Best of Cross-lingual Transfer: Evidence from POS Tagging with over 100 Languages”的一部分。更多详细信息请查看Space。

✨ 主要特性

支持多种语言的词性标注任务。
基于XLM-RoBERTa基础模型进行微调。
在通用依存关系v2.8数据集上进行训练。

📦 安装指南

由于未提供具体安装命令，此部分跳过。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-ca")
model = AutoModelForTokenClassification.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-ca")

高级用法

暂未提供高级用法代码示例，此部分跳过。

📚 详细文档

模型信息

属性	详情
模型类型	基于XLM-RoBERTa的词性标注模型
训练数据	通用依存关系v2.8数据集

评估指标

该模型在多种语言上的测试准确率如下：

语言	测试准确率
英语	86.3
荷兰语	87.2
德语	79.2
意大利语	90.2
法语	90.7
西班牙语	94.8
俄语	89.1
瑞典语	89.5
挪威语	84.7
丹麦语	89.3
低地撒克逊语	53.3
阿卡德语	41.0
亚美尼亚语	84.7
威尔士语	66.0
古东斯拉夫语	77.4
阿尔巴尼亚语	79.2
斯洛文尼亚语	79.1
瓜贾拉语	32.9
库尔德语（库尔曼吉方言）	78.2
土耳其语	76.2
芬兰语	84.7
印尼语	84.5
乌克兰语	87.5
波兰语	87.4
葡萄牙语	91.4
哈萨克语	80.6
拉丁语	79.3
古法语	66.5
布里亚特语	62.8
卡波语	27.5
韩语	61.6
爱沙尼亚语	87.2
克罗地亚语	88.8
哥特语	29.1
瑞士德语	42.1
亚述语	17.2
北萨米语	41.0
尼日利亚皮钦语	40.3
拉脱维亚语	85.0
中文	32.3
他加禄语	72.5
班巴拉语	29.8
立陶宛语	84.1
加利西亚语	88.8
越南语	65.2
希腊语	85.9
加泰罗尼亚语	98.7
捷克语	89.3
埃尔齐亚语	50.9
博杰普尔语	49.7
泰语	43.4
马拉地语	82.2
巴斯克语	74.9
斯洛伐克语	89.6
基切语	39.2
约鲁巴语	28.8
瓦尔皮里语	36.4
泰米尔语	82.2
马耳他语	36.2
古希腊语	62.0
冰岛语	83.2
姆比亚瓜拉尼语	32.6
乌尔都语	65.2
罗马尼亚语	84.8
波斯语	76.7
阿普里纳语	37.3
日语	19.9
匈牙利语	87.2
印地语	68.8
古汉语	19.2
科米-彼尔米亚克语	52.6
法罗语	76.4
梵语	38.4
利沃尼亚语	64.0
阿拉伯语	79.2
沃洛夫语	38.2
保加利亚语	89.9
阿昆楚语	43.4
马库拉普语	23.3
坎格里语	44.9
布列塔尼语	63.5
泰卢固语	85.0
粤语	40.5
古教会斯拉夫语	57.8
卡累利阿语	73.3
上索布语	75.8
南黎凡特阿拉伯语	64.0
科米-兹良语	44.2
爱尔兰语	67.2
纳伊尼语	50.0
蒙杜鲁库语	28.8
马恩岛语	35.3
斯科尔特萨米语	41.3
南非荷兰语	86.0
古土耳其语	45.7
图皮南巴语	36.6
白俄罗斯语	86.0
塞尔维亚语	90.4
莫克沙语	47.7
西亚美尼亚语	78.7
苏格兰盖尔语	54.8
昆萨里语	47.3
希伯来语	91.7
维吾尔语	75.4
楚科奇语	34.9