xlm-roberta-base-ft-udpos28-orv开源模型 - 支持古东斯拉夫语的多语言词性标注

首页

Xlm Roberta Base Ft Udpos28 Orv

由 wietsedv 开发

基于XLM-RoBERTa的多语言词性标注模型，支持古东斯拉夫语等多种语言的词性标注任务。

序列标注

Transformers

其他开源协议:Apache-2.0 #多语言词性标注 #古东斯拉夫语优化 #通用依存关系解析

下载量 17

发布时间 : 3/2/2022

模型简介

该模型是基于XLM-RoBERTa架构的多语言词性标注模型，专门针对通用依存关系v2.8数据集进行了微调，特别在古东斯拉夫语上表现出色。

模型特点

多语言支持

支持包括古东斯拉夫语在内的多种语言的词性标注

高准确率

在古东斯拉夫语测试集上达到91.0%的准确率

基于通用依存关系数据集

使用通用依存关系v2.8数据集进行训练和评估

模型能力

词性标注

多语言文本处理

标记分类

使用案例

语言学分析

古东斯拉夫语文本分析

对古东斯拉夫语文本进行词性标注

准确率达到91.0%

多语言文本处理

处理多种语言的词性标注任务

支持60多种语言的词性标注

🚀 XLM - RoBERTa基础通用依存关系v2.8词性标注：古东斯拉夫语

本模型是我们论文的一部分，论文名为：

《充分利用跨语言迁移：来自超100种语言词性标注的证据》

查看Space了解更多详情。

🚀 快速开始

本模型可用于词性标注任务，通过transformers库可以方便地加载和使用。

✨ 主要特性

多语言支持：支持超过100种语言的词性标注任务。
基于XLM - RoBERTa：利用XLM - RoBERTa的预训练模型，在通用依存关系数据集上进行微调。

📦 安装指南

文档未提供具体安装步骤，可参考transformers库的官方安装指南进行安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-orv")
model = AutoModelForTokenClassification.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-orv")

📚 详细文档

模型信息

属性	详情
模型类型	基于XLM - RoBERTa的词性标注模型
训练数据	通用依存关系数据集v2.8

评估结果

语言	测试准确率
英语	79.4
荷兰语	77.8
德语	79.3
意大利语	77.5
法语	75.2
西班牙语	77.2
俄语	87.9
瑞典语	83.0
挪威语	78.6
丹麦语	82.9
低地撒克逊语	58.9
阿卡德语	41.8
亚美尼亚语	82.7
威尔士语	64.3
古东斯拉夫语	91.0
阿尔巴尼亚语	73.4
斯洛文尼亚语	73.8
瓜拉尼语	41.7
库尔德语（库尔曼吉语）	76.7
土耳其语	73.5
芬兰语	83.0
印尼语	78.9
乌克兰语	86.7
波兰语	85.5
葡萄牙语	79.5
哈萨克语	79.7
拉丁语	80.9
古法语	60.5
布里亚特语	59.8
卡波语	27.1
韩语	61.0
爱沙尼亚语	83.9
克罗地亚语	84.7
哥特语	33.1
瑞士德语	53.5
亚述语	15.7
北萨米语	39.9
尼日利亚皮钦语	41.9
拉脱维亚语	85.7
中文	42.7
他加禄语	73.5
班巴拉语	29.5
立陶宛语	86.1
加利西亚语	77.7
越南语	64.8
希腊语	73.8
加泰罗尼亚语	74.2
捷克语	85.0
埃尔齐亚语	46.1
博杰普尔语	56.8
泰语	60.6
马拉地语	84.0
巴斯克语	77.2
斯洛伐克语	84.3
基切语	35.3
约鲁巴语	29.9
瓦尔皮里语	33.6
泰米尔语	84.3
马耳他语	32.0
古希腊语	65.7
冰岛语	81.6
姆比亚瓜拉尼语	33.2
乌尔都语	66.2
罗马尼亚语	80.9
波斯语	74.6
阿普里纳语	44.6
日语	35.7
匈牙利语	73.3
印地语	75.3
古汉语	41.5
科米 - 彼尔米亚克语	49.0
法罗语	78.3
梵语	43.3
利沃尼亚语	70.2
阿拉伯语	79.8
沃洛夫语	39.8
保加利亚语	85.8
阿昆楚语	36.5
马库拉普语	14.4
康格里语	52.0
布列塔尼语	58.1
泰卢固语	79.9
粤语	50.8
古教会斯拉夫语	78.2
卡累利阿语	73.5
上索布语	76.0
南黎凡特阿拉伯语	70.0
科米 - 兹梁语	43.1
爱尔兰语	61.1
纳伊尼语	53.8
蒙杜鲁库语	26.4
马恩岛语	44.6
斯科尔特萨米语	45.2
南非荷兰语	76.9
古土耳其语	2.7
图皮南巴语	39.0
白俄罗斯语	89.5
塞尔维亚语	85.1
莫克沙语	42.8
西亚美尼亚语	77.0
苏格兰盖尔语	51.6
昆萨里语	54.1
希伯来语	85.4
维吾尔语	74.4
楚科奇语	34.5