🚀 DistilBERT基础模型(无大小写区分)
DistilBERT基础模型(无大小写区分)是在Multi-Genre Natural Language Inference (MNLI) 数据集上针对零样本分类任务进行微调的模型,可用于文本分类任务。
🚀 快速开始
以下代码展示了如何加载该模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")
model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")
✨ 主要特性
📦 安装指南
暂未提供安装相关内容。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")
model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
零样本分类 |
训练数据 |
该模型在Multi-Genre Natural Language Inference (MultiNLI) 语料库上进行预训练。这是一个众包收集的包含433k个句子对的数据集,并标注了文本蕴含信息。该语料库涵盖了多种口语和书面文本的体裁,并支持独特的跨体裁泛化评估。 |
语言 |
英语 |
许可证 |
未知 |
父模型 |
有关Distilled - BERT基础模型的更多信息,请参阅 distilbert base uncased model。 |
用途
此模型可用于文本分类任务。
风险、限制和偏差
⚠️ 重要提示
读者应注意,本节包含令人不安、冒犯性的内容,可能会传播历史和当前的刻板印象。
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng等人 (2021) 和 Bender等人 (2021))。
训练
训练数据
该无大小写区分的DistilBERT模型在Multi-Genre Natural Language Inference (MultiNLI) 语料库上进行预训练。这是一个众包收集的包含433k个句子对的数据集,并标注了文本蕴含信息。该语料库涵盖了多种口语和书面文本的体裁,并支持独特的跨体裁泛化评估。该模型不区分大小写,即 "english" 和 "English" 对它来说是一样的。
训练过程
训练是在 p3.2xlarge AWS EC2上使用以下超参数完成的:
$ run_glue.py \
--model_name_or_path distilbert-base-uncased \
--task_name mnli \
--do_train \
--do_eval \
--max_seq_length 128 \
--per_device_train_batch_size 16 \
--learning_rate 2e-5 \
--num_train_epochs 5 \
--output_dir /tmp/distilbert-base-uncased_mnli/
评估
评估结果
在下游任务上进行微调时,该模型取得了以下结果:
- 轮数 = 5.0
- 评估准确率 = 0.8206875508543532
- 评估损失 = 0.8706700205802917
- 评估运行时间 = 17.8278
- 每秒评估样本数 = 551.498
MNLI和MNLI - mm结果:
任务 |
MNLI |
MNLI - mm |
|
82.0 |
82.0 |
环境影响
可以使用 Lacoste等人 (2019) 提出的 机器学习影响计算器 来估算碳排放。我们根据 相关论文 给出了硬件类型。
属性 |
详情 |
硬件类型 |
1个NVIDIA Tesla V100 GPU |
使用时长 |
未知 |
云服务提供商 |
AWS EC2 P3 |
计算区域 |
未知 |
碳排放 |
(功耗 x 时间 x 基于电网位置产生的碳排放量):未知 |
🔧 技术细节
该模型基于DistilBERT架构,在MNLI数据集上进行微调以适应零样本分类任务。训练过程在特定的AWS EC2实例上使用特定的超参数完成,以达到较好的性能。评估结果显示该模型在相关任务上具有一定的准确率。
📄 许可证
许可证信息未知。