🚀 DeBERTa-v3-base-tasksource-nli模型
DeBERTa-v3-base-tasksource-nli是基于DeBERTa-v3-base架构,在600多个任务上进行多任务学习微调的模型。它在零样本验证中表现出色,可用于零样本分类、自然语言推理等多种任务。
🚀 快速开始
本模型可用于多种自然语言处理任务,如零样本分类、自然语言推理等。以下是不同任务的使用示例:
[ZS] 零样本分类管道
from transformers import pipeline
classifier = pipeline("zero-shot-classification",model="sileod/deberta-v3-base-tasksource-nli")
text = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(text, candidate_labels)
此模型的NLI训练数据包含 label-nli,这是一个专门为提升此类零样本分类性能而构建的NLI数据集。
[NLI] 自然语言推理管道
from transformers import pipeline
pipe = pipeline("text-classification",model="sileod/deberta-v3-base-tasksource-nli")
pipe([dict(text='there is a cat',
text_pair='there is a black cat')])
[TA] Tasksource适配器:一行代码访问数百个任务
import tasknet as tn
pipe = tn.load_pipeline('sileod/deberta-v3-base-tasksource-nli','glue/sst2')
pipe(['That movie was great !', 'Awful movie.'])
任务列表可在模型的config.json
中查看。这种方式比零样本分类更高效,因为每个示例只需要一次前向传播,但灵活性较差。
[FT] Tasknet:三行代码进行微调
import tasknet as tn
hparams=dict(model_name='sileod/deberta-v3-base-tasksource-nli', learning_rate=2e-5)
model, trainer = tn.Model_Trainer([tn.AutoTask("glue/rte")], hparams)
trainer.train()
✨ 主要特性
- 多任务学习:在600多个任务上进行微调,具备处理多种自然语言处理任务的能力。
- 零样本学习:在许多任务上具有强大的零样本验证性能,可用于零样本分类。
- 高效访问:通过Tasksource适配器,可一行代码访问数百个任务。
- 易于微调:使用Tasknet,只需三行代码即可对模型进行微调。
📦 安装指南
运行代码示例前,需安装必要的库:
pip install transformers tasknet
📚 详细文档
评估
根据IBM模型回收评估,此模型在所有基于microsoft/deberta-v3-base
架构的模型中排名第一。
评估链接:https://ibm.github.io/model-recycling/
软件和训练细节
- 训练任务:在600个任务上进行训练。
- 训练步数:200k步。
- 批次大小:384。
- 峰值学习率:2e-5。
- 训练硬件:在Nvidia A30 24GB GPU上训练了15天。
此模型是在MNLI分类器之上的共享模型。每个任务都有特定的CLS嵌入,为了便于在不使用它的情况下使用模型,CLS嵌入有10%的概率会被丢弃。所有多项选择模型使用相同的分类层。对于分类任务,如果标签匹配,模型会共享权重。
相关链接:
- https://github.com/sileod/tasksource/
- https://github.com/sileod/tasknet/
- 训练代码:https://colab.research.google.com/drive/1iB4Oxl9_B5W3ZDzXoWJN-olUbqLBxgQS?usp=sharing
📄 许可证
本模型采用Apache-2.0许可证。
📖 引用
更多详细信息请参考 文章:
@article{sileo2023tasksource,
title={tasksource: Structured Dataset Preprocessing Annotations for Frictionless Extreme Multi-Task Learning and Evaluation},
author={Sileo, Damien},
url= {https://arxiv.org/abs/2301.05948},
journal={arXiv preprint arXiv:2301.05948},
year={2023}
}
📞 模型卡片联系方式
如有问题,请联系:damien.sileo@inria.fr
📋 数据集
本模型使用了大量数据集进行训练和评估,包括但不限于:
glue
nyu-mll/multi_nli
OpenAssistant/oasst1
- 以及众多其他自然语言处理相关数据集。
完整数据集列表请参考原文档。