🚀 XLM-R基础模型在英文语义角色标注上的微调
本模型基于xlm-roberta-base
,在英文CoNLL格式的OntoNotes v5.0语义角色标注数据上进行了微调。该项目还产出了一系列相关模型,为语义角色标注任务提供了多样化的解决方案。
🚀 快速开始
模型使用
若要使用此模型的transformers部分,可参考以下代码:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("liaad/srl-en_xlmr-base")
model = AutoModel.from_pretrained("liaad/srl-en_xlmr-base")
若要使用完整的SRL模型(transformers部分 + 解码层),请参考项目的GitHub仓库。
✨ 主要特性
- 多语言支持:支持多种语言,包括葡萄牙语和英语。
- 微调优化:基于
xlm-roberta-base
在英文语义角色标注数据上进行微调,提升了模型在特定任务上的性能。
📦 安装指南
文档未提及具体安装步骤,可参考项目的GitHub仓库获取详细信息。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("liaad/srl-en_xlmr-base")
model = AutoModel.from_pretrained("liaad/srl-en_xlmr-base")
📚 详细文档
预期用途与限制
使用方法
使用模型的transformers部分代码如下:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("liaad/srl-en_xlmr-base")
model = AutoModel.from_pretrained("liaad/srl-en_xlmr-base")
若要使用完整的SRL模型(transformers部分 + 解码层),请参考项目的GitHub。
限制与偏差
- Tensorflow版本缺失:由于模型中的"type_vocab_size"从1更改为2,无法轻松转换为Tensorflow版本。
- 训练轮数有限:模型仅训练了5个轮次。
- 数据差异:英文数据经过预处理以匹配葡萄牙语数据,因此在角色归因上存在一些差异,部分角色从数据中移除。
训练过程
模型在CoNLL - 2012数据集上进行训练,该数据集经过预处理以匹配葡萄牙语的PropBank.Br数据。模型在PropBank.Br数据集以及较小的意见数据集"Buscapé"上进行了测试。更多信息请参考附带文章(见下面的BibTeX条目和引用信息)和项目的GitHub。
评估结果
模型名称 |
F1 CV PropBank.Br(领域内) |
F1 Buscapé(领域外) |
srl-pt_bertimbau-base |
76.30 |
73.33 |
srl-pt_bertimbau-large |
77.42 |
74.85 |
srl-pt_xlmr-base |
75.22 |
72.82 |
srl-pt_xlmr-large |
77.59 |
73.84 |
srl-pt_mbert-base |
72.76 |
66.89 |
srl-en_xlmr-base |
66.59 |
65.24 |
srl-en_xlmr-large |
67.60 |
64.94 |
srl-en_mbert-base |
63.07 |
58.56 |
srl-enpt_xlmr-base |
76.50 |
73.74 |
srl-enpt_xlmr-large |
78.22 |
74.55 |
srl-enpt_mbert-base |
74.88 |
69.19 |
ud_srl-pt_bertimbau-large |
77.53 |
74.49 |
ud_srl-pt_xlmr-large |
77.69 |
74.91 |
ud_srl-enpt_xlmr-large |
77.97 |
75.05 |
BibTeX引用
@misc{oliveira2021transformers,
title={Transformers and Transfer Learning for Improving Portuguese Semantic Role Labeling},
author={Sofia Oliveira and Daniel Loureiro and Alípio Jorge},
year={2021},
eprint={2101.01213},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本项目采用Apache - 2.0许可证。