🚀 DeBERTa-v3-base-tasksource-nli模型
DeBERTa-v3-base-tasksource-nli是基於DeBERTa-v3-base架構,在600多個任務上進行多任務學習微調的模型。它在零樣本驗證中表現出色,可用於零樣本分類、自然語言推理等多種任務。
🚀 快速開始
本模型可用於多種自然語言處理任務,如零樣本分類、自然語言推理等。以下是不同任務的使用示例:
[ZS] 零樣本分類管道
from transformers import pipeline
classifier = pipeline("zero-shot-classification",model="sileod/deberta-v3-base-tasksource-nli")
text = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(text, candidate_labels)
此模型的NLI訓練數據包含 label-nli,這是一個專門為提升此類零樣本分類性能而構建的NLI數據集。
[NLI] 自然語言推理管道
from transformers import pipeline
pipe = pipeline("text-classification",model="sileod/deberta-v3-base-tasksource-nli")
pipe([dict(text='there is a cat',
text_pair='there is a black cat')])
[TA] Tasksource適配器:一行代碼訪問數百個任務
import tasknet as tn
pipe = tn.load_pipeline('sileod/deberta-v3-base-tasksource-nli','glue/sst2')
pipe(['That movie was great !', 'Awful movie.'])
任務列表可在模型的config.json
中查看。這種方式比零樣本分類更高效,因為每個示例只需要一次前向傳播,但靈活性較差。
[FT] Tasknet:三行代碼進行微調
import tasknet as tn
hparams=dict(model_name='sileod/deberta-v3-base-tasksource-nli', learning_rate=2e-5)
model, trainer = tn.Model_Trainer([tn.AutoTask("glue/rte")], hparams)
trainer.train()
✨ 主要特性
- 多任務學習:在600多個任務上進行微調,具備處理多種自然語言處理任務的能力。
- 零樣本學習:在許多任務上具有強大的零樣本驗證性能,可用於零樣本分類。
- 高效訪問:通過Tasksource適配器,可一行代碼訪問數百個任務。
- 易於微調:使用Tasknet,只需三行代碼即可對模型進行微調。
📦 安裝指南
運行代碼示例前,需安裝必要的庫:
pip install transformers tasknet
📚 詳細文檔
評估
根據IBM模型回收評估,此模型在所有基於microsoft/deberta-v3-base
架構的模型中排名第一。
評估鏈接:https://ibm.github.io/model-recycling/
軟件和訓練細節
- 訓練任務:在600個任務上進行訓練。
- 訓練步數:200k步。
- 批次大小:384。
- 峰值學習率:2e-5。
- 訓練硬件:在Nvidia A30 24GB GPU上訓練了15天。
此模型是在MNLI分類器之上的共享模型。每個任務都有特定的CLS嵌入,為了便於在不使用它的情況下使用模型,CLS嵌入有10%的概率會被丟棄。所有多項選擇模型使用相同的分類層。對於分類任務,如果標籤匹配,模型會共享權重。
相關鏈接:
- https://github.com/sileod/tasksource/
- https://github.com/sileod/tasknet/
- 訓練代碼:https://colab.research.google.com/drive/1iB4Oxl9_B5W3ZDzXoWJN-olUbqLBxgQS?usp=sharing
📄 許可證
本模型採用Apache-2.0許可證。
📖 引用
更多詳細信息請參考 文章:
@article{sileo2023tasksource,
title={tasksource: Structured Dataset Preprocessing Annotations for Frictionless Extreme Multi-Task Learning and Evaluation},
author={Sileo, Damien},
url= {https://arxiv.org/abs/2301.05948},
journal={arXiv preprint arXiv:2301.05948},
year={2023}
}
📞 模型卡片聯繫方式
如有問題,請聯繫:damien.sileo@inria.fr
📋 數據集
本模型使用了大量數據集進行訓練和評估,包括但不限於:
glue
nyu-mll/multi_nli
OpenAssistant/oasst1
- 以及眾多其他自然語言處理相關數據集。
完整數據集列表請參考原文檔。