🚀 XLM-RoBERTa基础模型在通用依存关系v2.8词性标注中的应用:哥特语
本模型是我们论文 《充分利用跨语言迁移:来自超100种语言词性标注的证据》 的一部分。
查看 Space 了解更多详情。
🚀 快速开始
本模型可用于词性标注和标记分类任务,基于通用依存关系v2.8数据集进行训练。以下是使用该模型的基本步骤。
✨ 主要特性
- 多语言支持:支持多种语言的词性标注任务,在哥特语上表现尤为出色。
- 模型类型:基于
transformers
库的XLM-RoBERTa
基础模型。
- 训练数据:使用通用依存关系v2.8(Universal Dependencies v2.8)数据集。
属性 |
详情 |
模型类型 |
XLM-RoBERTa基础模型 |
训练数据 |
通用依存关系v2.8数据集 |
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-got")
model = AutoModelForTokenClassification.from_pretrained("wietsedv/xlm-roberta-base-ft-udpos28-got")
📚 详细文档
评估指标
模型在多种语言上的测试准确率如下:
语言 |
测试准确率 |
英语 |
47.9 |
荷兰语 |
50.2 |
德语 |
38.9 |
意大利语 |
46.8 |
法语 |
50.2 |
西班牙语 |
51.3 |
俄语 |
52.4 |
瑞典语 |
51.5 |
挪威语 |
49.1 |
丹麦语 |
50.8 |
低地撒克逊语 |
32.8 |
阿卡德语 |
43.8 |
亚美尼亚语 |
50.4 |
威尔士语 |
41.1 |
古东斯拉夫语 |
53.9 |
阿尔巴尼亚语 |
49.0 |
斯洛文尼亚语 |
45.3 |
瓜拉尼语 |
23.8 |
库尔德语(库尔曼吉方言) |
49.3 |
土耳其语 |
46.6 |
芬兰语 |
51.2 |
印尼语 |
55.4 |
乌克兰语 |
50.0 |
波兰语 |
52.4 |
葡萄牙语 |
50.4 |
哈萨克语 |
46.5 |
拉丁语 |
49.1 |
古法语 |
47.6 |
布里亚特语 |
37.4 |
卡波语 |
33.8 |
韩语 |
41.5 |
爱沙尼亚语 |
49.5 |
克罗地亚语 |
57.2 |
哥特语 |
93.6 |
瑞士德语 |
25.1 |
亚述语 |
4.0 |
北萨米语 |
27.9 |
尼日利亚皮钦语 |
29.2 |
拉脱维亚语 |
51.5 |
中文 |
16.4 |
他加禄语 |
42.0 |
班巴拉语 |
13.1 |
立陶宛语 |
50.5 |
加利西亚语 |
49.2 |
越南语 |
47.1 |
希腊语 |
42.0 |
加泰罗尼亚语 |
50.1 |
捷克语 |
54.3 |
埃尔齐亚语 |
22.1 |
博杰普尔语 |
38.8 |
泰语 |
34.7 |
马拉地语 |
35.0 |
巴斯克语 |
45.9 |
斯洛伐克语 |
55.3 |
基切语 |
23.3 |
约鲁巴语 |
15.0 |
瓦尔皮里语 |
23.5 |
泰米尔语 |
41.1 |
马耳他语 |
21.4 |
古希腊语 |
50.9 |
冰岛语 |
50.3 |
姆比亚瓜拉尼语 |
14.8 |
乌尔都语 |
41.4 |
罗马尼亚语 |
50.1 |
波斯语 |
53.1 |
阿普里纳语 |
20.8 |
日语 |
16.3 |
匈牙利语 |
42.3 |
印地语 |
45.2 |
古汉语 |
19.6 |
科米-彼尔姆语 |
23.4 |
法罗语 |
48.9 |
梵语 |
32.4 |
利沃尼亚语 |
38.5 |
阿拉伯语 |
49.6 |
沃洛夫语 |
28.4 |
保加利亚语 |
55.6 |
阿昆楚语 |
25.2 |
马库拉普语 |
18.5 |
坎格里语 |
34.2 |
布列塔尼语 |
36.7 |
泰卢固语 |
38.8 |
粤语 |
17.1 |
古教会斯拉夫语 |
50.2 |
卡累利阿语 |
41.7 |
上索布语 |
42.7 |
南黎凡特阿拉伯语 |
38.9 |
科米-兹梁语 |
21.1 |
爱尔兰语 |
37.2 |
纳伊尼语 |
33.3 |
蒙杜鲁库语 |
26.6 |
马恩岛语 |
17.6 |
斯科尔特萨米语 |
19.9 |
南非荷兰语 |
45.9 |
古土耳其语 |
2.7 |
图皮南巴语 |
23.4 |
白俄罗斯语 |
53.0 |
塞尔维亚语 |
57.4 |
莫克沙语 |
24.5 |
西亚美尼亚语 |
47.2 |
苏格兰盖尔语 |
36.7 |
昆萨里语 |
28.4 |
希伯来语 |
44.8 |
维吾尔语 |
48.6 |
楚科奇语 |
21.0 |
📄 许可证
本模型使用Apache 2.0许可证。