🚀 XLM-ROBERTA-BASE-XNLI_FR
本模型主要用于零样本文本分类,在仇恨言论检测领域表现出色,尤其针对法语数据进行了微调,同时基于预训练的多语言模型,在其他语言上也有一定效果。
🚀 快速开始
零样本分类管道使用
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/french_xlm_xnli")
加载模型后,你可以对上述提到的语言序列进行分类。你可以指定序列和匹配假设,以便对提出的候选标签进行分类。
sequence_to_classify = "Je pense que Marcon va gagner les elections?"
candidate_labels = ["politique", "sport"]
hypothesis_template = "Cet example est {}"
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
✨ 主要特性
- 基于XLM - Roberta - base模型,在多语言的Twitter大型语料库上继续预训练。
- 按照类似Tweet Eval框架的策略开发。
- 针对法语的XNLI训练数据集进行了微调,可用于零样本文本分类,尤其在仇恨言论检测领域表现出色。
- 由于基础模型在100种不同语言上进行了预训练,因此在其他语言上也有一定效果。
📦 安装指南
文档未提及具体安装步骤,暂无法提供。
💻 使用示例
基础用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/french_xlm_xnli")
高级用法
sequence_to_classify = "Je pense que Marcon va gagner les elections?"
candidate_labels = ["politique", "sport"]
hypothesis_template = "Cet example est {}"
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
📚 详细文档
模型描述
该模型采用了XLM - Roberta - base模型,并在多语言的Twitter大型语料库上继续进行预训练。它的开发策略与Tweet Eval框架中介绍的类似。此外,该模型还在XNLI训练数据集的法语部分进行了进一步微调。
预期用途
此模型旨在进行零样本文本分类,主要应用于仇恨言论检测领域。由于它在法语数据上进行了微调,因此专注于法语。不过,由于基础模型在100种不同语言上进行了预训练,它在其他语言上也显示出了一定的有效性。具体语言列表可参考XLM Roberta论文。
训练
该模型首先在100种语言的数据集上进行预训练,然后按照原论文所述,在1.98亿条多语言推文上继续训练。此外,它还在法语的XNLI训练集(MNLI数据集的机器翻译版本)上进行训练。模型在XNLI训练集上进行了5个周期的训练,并在每个周期结束时在XNLI评估数据集上进行评估,以找到性能最佳的模型。最终选择在评估集上准确率最高的模型。

- 学习率:2e - 5
- 批量大小:32
- 最大序列长度:128
使用GPU(NVIDIA GeForce RTX 3090)进行训练,训练时间为1小时47分钟。
评估
性能最佳的模型在XNLI测试集上进行评估,得到如下可比结果:
predict_accuracy = 78.02 %
🔧 技术细节
本模型基于XLM - Roberta - base架构,先在多语言的Twitter语料库上预训练,以学习多语言的语义信息。之后在法语的XNLI数据集上进行微调,使得模型能够更好地适应法语的零样本分类任务。训练过程中,使用了特定的学习率、批量大小和最大序列长度等超参数,并在每个训练周期结束时进行评估,以选择性能最佳的模型。通过在XNLI测试集上的评估,验证了模型的有效性。
📄 许可证
本项目采用MIT许可证。
属性 |
详情 |
模型类型 |
基于XLM - Roberta - base的零样本分类模型 |
训练数据 |
100种语言的预训练数据、1.98亿条多语言推文、法语的XNLI数据集 |