DistilBERT开源文本分类模型 - 性能接近BERT，小体积快速推理体验

首页

Distilbert Base Uncased Mnli

由 typeform 开发

DistilBERT是BERT的精简版本，保留了BERT 97%的性能，同时体积减小40%，速度提升60%。

大型语言模型

Transformers

英语#零样本分类 #多语言理解 #轻量级BERT

下载量 74.81k

发布时间 : 3/2/2022

模型简介

DistilBERT是基于BERT的轻量级模型，通过知识蒸馏技术训练，适用于多种自然语言处理任务。

模型特点

轻量高效

相比原始BERT模型，体积减小40%，推理速度提升60%

高性能

保留BERT模型97%的性能表现

多任务支持

适用于多种自然语言处理任务

模型能力

文本分类

零样本分类

自然语言理解

使用案例

文本分析

情感分析

分析文本的情感倾向

高准确率的情感分类

主题分类

将文本分类到预定义的类别中

客户服务

意图识别

识别用户查询的意图

🚀 DistilBERT基础模型（无大小写区分）

DistilBERT基础模型（无大小写区分）是在Multi-Genre Natural Language Inference (MNLI) 数据集上针对零样本分类任务进行微调的模型，可用于文本分类任务。

🚀 快速开始

以下代码展示了如何加载该模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")

model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")

✨ 主要特性

该模型是基于无大小写区分的DistilBERT模型在 Multi-Genre Natural Language Inference (MNLI) 数据集上针对零样本分类任务进行微调得到的。
由 Typeform 团队开发。
模型类型为零样本分类。
支持英语。

📦 安装指南

暂未提供安装相关内容。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")

model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")

📚 详细文档

模型详情

属性	详情
模型类型	零样本分类
训练数据	该模型在Multi-Genre Natural Language Inference (MultiNLI) 语料库上进行预训练。这是一个众包收集的包含433k个句子对的数据集，并标注了文本蕴含信息。该语料库涵盖了多种口语和书面文本的体裁，并支持独特的跨体裁泛化评估。
语言	英语
许可证	未知
父模型	有关Distilled - BERT基础模型的更多信息，请参阅 distilbert base uncased model。

用途

此模型可用于文本分类任务。

风险、限制和偏差

⚠️ 重要提示

读者应注意，本节包含令人不安、冒犯性的内容，可能会传播历史和当前的刻板印象。

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见 Sheng等人 (2021) 和 Bender等人 (2021)）。

训练

训练数据

该无大小写区分的DistilBERT模型在Multi-Genre Natural Language Inference (MultiNLI) 语料库上进行预训练。这是一个众包收集的包含433k个句子对的数据集，并标注了文本蕴含信息。该语料库涵盖了多种口语和书面文本的体裁，并支持独特的跨体裁泛化评估。该模型不区分大小写，即 "english" 和 "English" 对它来说是一样的。

训练过程

训练是在 p3.2xlarge AWS EC2上使用以下超参数完成的：

$ run_glue.py \
    --model_name_or_path distilbert-base-uncased \
    --task_name mnli \
    --do_train \
    --do_eval \
    --max_seq_length 128 \
    --per_device_train_batch_size 16 \
    --learning_rate 2e-5 \
    --num_train_epochs 5 \
    --output_dir /tmp/distilbert-base-uncased_mnli/

评估

评估结果

在下游任务上进行微调时，该模型取得了以下结果：

轮数 = 5.0
评估准确率 = 0.8206875508543532
评估损失 = 0.8706700205802917
评估运行时间 = 17.8278
每秒评估样本数 = 551.498

MNLI和MNLI - mm结果：

任务	MNLI	MNLI - mm
	82.0	82.0

环境影响

可以使用 Lacoste等人 (2019) 提出的机器学习影响计算器来估算碳排放。我们根据相关论文给出了硬件类型。

属性	详情
硬件类型	1个NVIDIA Tesla V100 GPU
使用时长	未知
云服务提供商	AWS EC2 P3
计算区域	未知
碳排放	（功耗 x 时间 x 基于电网位置产生的碳排放量）：未知