🚀 SVALabs - Gbert Large Zeroshot Nli
本倉庫展示了我們的德語零樣本分類模型。該模型基於 deepset.ai 的德語 BERT 大模型進行訓練,並基於 847,862 對機器翻譯的自然語言推理(NLI)句子對進行微調。這些句子對來自 mnli、anli 和 snli 數據集,我們將這些數據集中的句子對翻譯成了德語。
如果你會說德語,也可以查看我們關於此模型和零樣本分類的 博客文章。
✨ 主要特性
- 基於德語 BERT 大模型訓練,適用於德語自然語言處理任務。
- 經過大量機器翻譯的 NLI 句子對微調,在自然語言推理任務上表現出色。
- 可用於零樣本文本分類任務,無需大量標註數據。
📚 詳細文檔
模型詳情
性能表現
我們使用 xnli 數據集中德語部分的測試集對模型進行了自然語言推理任務的評估。
XNLI 測試集準確率:85.6%
零樣本文本分類任務基準測試
我們進一步使用 10kGNAD 數據集 的一部分對模型進行了零樣本文本分類任務的測試。具體來說,我們使用了所有標註為“文化”“體育”“網絡”“經濟”和“科學”的文章。
下表展示了測試結果,並與執行相同任務的其他德語和多語言零樣本模型進行了比較:
模型 |
準確率 |
Svalabs/gbert-large-zeroshot-nli |
0.81 |
Sahajtomar/German_Zeroshot |
0.76 |
Symanto/xlm-roberta-base-snli-mnli-anli-xnli |
0.16 |
Deepset/gbert-base |
0.65 |
💻 使用示例
基礎用法
使用該模型最簡單的方法是使用 Hugging Face 的 Transformers 管道工具。只需將任務指定為“zero-shot-classification”,並選擇“svalabs/gbert-large-zeroshot-nli”作為模型進行管道初始化。
模型需要你指定標籤、要分類的序列(或序列列表)以及假設模板。在我們的測試中,如果標籤僅包含單個單詞,“In diesem Satz geht es um das Thema {}”的表現最佳。然而,對於多個單詞,尤其是當它們組合了名詞和動詞時,像“Weil {}”或“Daher {}”這樣簡單的假設模板可能效果更好。
以下是一個使用模型的示例:
from transformers import pipeline
zershot_pipeline = pipeline("zero-shot-classification",
model="svalabs/gbert-large-zeroshot-nli")
sequence = "Ich habe ein Problem mit meinem Iphone das so schnell wie möglich gelöst werden muss"
labels = ["Computer", "Handy", "Tablet", "dringend", "nicht dringend"]
hypothesis_template = "In diesem Satz geht es um das Thema {}."
zershot_pipeline(sequence, labels, hypothesis_template=hypothesis_template)
📞 聯繫方式
- Nicole Wochatz,nicole.wochatz@sva.de
- Stefan Kammer,stefan.kammer@sva.de