🚀 XLM-ROBERTA-BASE-XNLI-ES
本模型旨在解决零样本文本分类在仇恨言论检测领域的问题,尤其专注于西班牙语分类。它基于多语言预训练,在其他语言上也有一定效果,为跨语言文本分类提供了有效解决方案。
🚀 快速开始
本模型可用于零样本文本分类任务,尤其在仇恨言论检测领域表现出色。以下是使用零样本分类管道的示例代码:
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/spanish_xlm_xnli")
加载模型后,你可以对上述提到的语言序列进行分类。你可以指定序列和匹配假设,以便对提议的候选标签进行分类。
sequence_to_classify = "Creo que Lionel Messi es el mejor futbolista del mundo."
candidate_labels = ["politíca", "futbol"]
hypothesis_template = "Este ejemplo es {}"
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
✨ 主要特性
- 基于XLM - Roberta - base模型,在多语言Twitter大型语料库上继续预训练。
- 开发策略借鉴了Tweet Eval框架。
- 在XNLI训练数据集的西班牙语部分进行了微调,专注于西班牙语的零样本文本分类。
- 由于基础模型在100种不同语言上进行了预训练,在其他语言上也有一定效果。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/spanish_xlm_xnli")
高级用法
sequence_to_classify = "Creo que Lionel Messi es el mejor futbolista del mundo."
candidate_labels = ["politíca", "futbol"]
hypothesis_template = "Este ejemplo es {}"
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
📚 详细文档
模型描述
该模型采用XLM - Roberta - base模型,并在多语言的Twitter大型语料库上继续进行预训练。它的开发策略与Tweet Eval框架中介绍的类似。此外,该模型还在XNLI训练数据集的西班牙语部分进行了微调。
预期用途
此模型专为仇恨言论检测领域的零样本文本分类而开发。由于它在西班牙语数据上进行了微调,因此主要专注于西班牙语。不过,由于基础模型在100种不同语言上进行了预训练,在其他语言上也显示出了一定的有效性。具体语言列表请参考XLM Roberta论文。
训练
该模型首先在100种语言的数据集上进行预训练,然后按照原论文所述,在1.98亿条多语言推文上进一步训练。此外,它还在XNLI数据集的西班牙语训练集上进行训练,该数据集是MNLI数据集的机器翻译版本。模型在XNLI训练集上进行了5个轮次的训练,并在每个轮次结束时在XNLI评估数据集上进行评估,以找到性能最佳的模型。最终选择在评估集上准确率最高的模型。

- 学习率:2e - 5
- 批量大小:32
- 最大序列长度:128
使用GPU(NVIDIA GeForce RTX 3090)进行训练,训练时间为1小时47分钟。
评估
在XNLI测试集上对性能最佳的模型进行评估,以获得可比较的结果:
predict_accuracy = 79.20 %
🔧 技术细节
该模型基于XLM - Roberta - base架构,先在多语言Twitter语料库上预训练,再在XNLI西班牙语数据集上微调。训练过程中,使用特定的学习率、批量大小和序列长度,在GPU上进行多轮训练和评估,最终选择在评估集上准确率最高的模型。这种训练策略结合了多语言预训练和特定语言微调,使得模型在零样本文本分类任务中,尤其是西班牙语的仇恨言论检测方面表现出色。
📄 许可证
本项目采用MIT许可证。