🚀 COVID-Twitter-BERT v2 MNLI
本模型是一个零样本分类器,适用于因缺乏标注数据而无法针对特定任务微调CT - BERT的场景。它能有效解决在没有大量标注数据的情况下进行文本分类的难题,为相关研究和应用提供了便捷的解决方案。
🚀 快速开始
本模型提供了便捷的使用方式,你可以通过以下步骤快速体验其功能。
基础用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification", model="digitalepidemiologylab/covid-twitter-bert-v2-mnli")
高级用法
sequence_to_classify = 'To stop the pandemic it is important that everyone turns up for their shots.'
candidate_labels = ['health', 'sport', 'vaccine','guns']
hypothesis_template = 'This example is {}.'
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template, multi_class=True)
✨ 主要特性
- 零样本分类能力:该模型基于Yin等人的技术,能够在没有针对特定任务进行微调的情况下,将预训练的MNLI模型用作零样本序列分类器。
- 广泛的适用性:可用于多种文本分类场景,如将COVID - 推文分类为与疫苗相关和与疫苗无关。
- 便捷的使用方式:可以通过Hugging Face管道轻松尝试,无需额外的训练步骤。
📚 详细文档
模型描述
此模型提供了一个零样本分类器,用于在因缺乏标注数据而无法针对特定任务微调CT - BERT的情况下使用。该技术基于Yin等人的研究,文章介绍了一种非常巧妙的方法,将预训练的MNLI模型用作零样本序列分类器。该模型已经在40万个通用逻辑任务上进行了微调,我们可以通过将分类任务重新表述为一个问题,将其用作零样本分类器。
例如,假设我们要将COVID - 推文分类为与疫苗相关和与疫苗无关。传统的方法是收集几百条预先标注的推文,并将它们分为两类,然后对模型进行微调。而使用零样本MNLI分类器,你可以将问题重新表述为“这段文本是关于疫苗的”,并直接用于推理,无需任何训练。
你可以在我们的GitHub页面上找到有关该模型的更多信息。
使用说明
请注意,问题的表述方式可能会导致略有不同的结果。收集训练集并进行微调,很可能会提高准确性。
尝试此模型的最简单方法是使用Hugging Face管道。它使用默认的英语模板,在文本前面加上“这个例子是 ”。
训练过程
该模型在40万个大规模MNLI任务上进行了微调。
📄 许可证
本项目采用MIT许可证。
🔖 引用信息
@article{muller2020covid,
title={COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter},
author={M{\"u}ller, Martin and Salath{\'e}, Marcel and Kummervold, Per E},
journal={arXiv preprint arXiv:2005.07503},
year={2020}
}
或
Martin Müller, Marcel Salathé, and Per E. Kummervold.
COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter.
arXiv preprint arXiv:2005.07503 (2020).
📋 其他信息
属性 |
详情 |
模型类型 |
零样本分类器 |
训练数据 |
MNLI数据集 |
标签 |
Twitter、COVID - 19、文本分类、pytorch、tensorflow、bert |
管道标签 |
零样本分类 |
⚠️ 重要提示
问题的表述方式可能会导致略有不同的结果,收集训练集并进行微调,很可能会提高准确性。
💡 使用建议
尝试此模型的最简单方法是使用Hugging Face管道,它使用默认的英语模板,在文本前面加上“这个例子是 ”。