🚀 SVALabs - Gbert Large Zeroshot Nli
本仓库展示了我们的德语零样本分类模型。该模型基于 deepset.ai 的德语 BERT 大模型进行训练,并基于 847,862 对机器翻译的自然语言推理(NLI)句子对进行微调。这些句子对来自 mnli、anli 和 snli 数据集,我们将这些数据集中的句子对翻译成了德语。
如果你会说德语,也可以查看我们关于此模型和零样本分类的 博客文章。
✨ 主要特性
- 基于德语 BERT 大模型训练,适用于德语自然语言处理任务。
- 经过大量机器翻译的 NLI 句子对微调,在自然语言推理任务上表现出色。
- 可用于零样本文本分类任务,无需大量标注数据。
📚 详细文档
模型详情
性能表现
我们使用 xnli 数据集中德语部分的测试集对模型进行了自然语言推理任务的评估。
XNLI 测试集准确率:85.6%
零样本文本分类任务基准测试
我们进一步使用 10kGNAD 数据集 的一部分对模型进行了零样本文本分类任务的测试。具体来说,我们使用了所有标注为“文化”“体育”“网络”“经济”和“科学”的文章。
下表展示了测试结果,并与执行相同任务的其他德语和多语言零样本模型进行了比较:
模型 |
准确率 |
Svalabs/gbert-large-zeroshot-nli |
0.81 |
Sahajtomar/German_Zeroshot |
0.76 |
Symanto/xlm-roberta-base-snli-mnli-anli-xnli |
0.16 |
Deepset/gbert-base |
0.65 |
💻 使用示例
基础用法
使用该模型最简单的方法是使用 Hugging Face 的 Transformers 管道工具。只需将任务指定为“zero-shot-classification”,并选择“svalabs/gbert-large-zeroshot-nli”作为模型进行管道初始化。
模型需要你指定标签、要分类的序列(或序列列表)以及假设模板。在我们的测试中,如果标签仅包含单个单词,“In diesem Satz geht es um das Thema {}”的表现最佳。然而,对于多个单词,尤其是当它们组合了名词和动词时,像“Weil {}”或“Daher {}”这样简单的假设模板可能效果更好。
以下是一个使用模型的示例:
from transformers import pipeline
zershot_pipeline = pipeline("zero-shot-classification",
model="svalabs/gbert-large-zeroshot-nli")
sequence = "Ich habe ein Problem mit meinem Iphone das so schnell wie möglich gelöst werden muss"
labels = ["Computer", "Handy", "Tablet", "dringend", "nicht dringend"]
hypothesis_template = "In diesem Satz geht es um das Thema {}."
zershot_pipeline(sequence, labels, hypothesis_template=hypothesis_template)
📞 联系方式
- Nicole Wochatz,nicole.wochatz@sva.de
- Stefan Kammer,stefan.kammer@sva.de