🚀 XLM-ROBERTA-BASE-XNLI-ZH
本模型可用于零样本文本分类,尤其在中文仇恨言论检测领域表现出色。它基于多语言预训练的XLM-Roberta-base模型,经进一步微调,能有效处理多种语言的文本分类任务。
🚀 快速开始
使用零样本分类管道
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/chinese_xlm_xnli")
✨ 主要特性
- 多语言预训练:基于在100种语言上预训练的XLM-Roberta-base模型,在多语言文本处理上有天然优势。
- 针对性微调:在XNLI中文训练集上进行微调,专注于中文文本的零样本分类任务。
- 应用场景明确:主要用于仇恨言论检测领域的零样本文本分类。
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/chinese_xlm_xnli")
📚 详细文档
模型描述
该模型采用XLM-Roberta-base模型,并在多语言的大型Twitter语料库上继续进行预训练。它的开发策略与Tweet Eval框架中介绍的类似。此外,该模型还在XNLI训练数据集的德语部分进行了进一步微调。
预期用途
此模型旨在进行仇恨言论检测领域的零样本文本分类。由于它在中文数据上进行了微调,因此主要聚焦于中文。不过,由于基础模型在100种不同语言上进行了预训练,它在其他语言上也表现出了一定的有效性。具体语言列表请参考XLM Roberta论文。
训练情况
该模型首先在100种语言上进行预训练,然后按照原论文所述,在1.98亿条多语言推文上继续训练。此外,它还在XNLI中文训练集(MNLI数据集的机器翻译版本)上进行训练。模型在XNLI训练集上进行了5个轮次的训练,并在每个轮次结束时在XNLI评估数据集上进行评估,以选出性能最佳的模型。最终选择在评估集上准确率最高的模型。

- 学习率:2e-5
- 批量大小:32
- 最大序列长度:128
使用GPU(NVIDIA GeForce RTX 3090)进行训练,训练时间为1小时47分钟。
评估情况
对性能最佳的模型在XNLI测试集上进行评估,以获得可比较的结果。
预测准确率 = 76.17 %
🔧 技术细节
本模型基于XLM-Roberta-base架构,通过在多语言Twitter语料库上继续预训练和在XNLI中文训练集上微调,提升了在中文零样本文本分类任务上的性能。训练过程中采用了特定的学习率、批量大小和最大序列长度等超参数,并使用GPU进行加速训练。
📄 许可证
本模型采用MIT许可证。
属性 |
详情 |
模型类型 |
基于XLM-Roberta-base的零样本分类模型 |
训练数据 |
100种语言预训练数据、1.98亿条多语言推文、XNLI中文训练集 |
评估指标 |
准确率 |
适用任务 |
零样本文本分类(仇恨言论检测) |