distilbert-base-uncased-finetuned-sst-2-english开源文本分类模型

首页

Distilbert Base Uncased Finetuned Sst 2 English

由 distilbert 开发

基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型，准确率91.3%

文本分类英语开源协议:Apache-2.0 #情感分析 #文本分类 #英语NLP

下载量 5.2M

发布时间 : 3/2/2022

模型简介

轻量级BERT变体，专为英语文本情感分析任务优化

模型特点

高效轻量

相比原始BERT体积减小40%但保留97%性能

快速推理

蒸馏架构带来60%的速度提升

领域适配

针对电影评论情感分析专项优化

模型能力

文本分类

情感分析

句子级特征提取

使用案例

内容分析

影评情感分析

判断电影评论的情感倾向（正面/负面）

开发集准确率91.3%

社交媒体监测

分析用户发文的情绪倾向

🚀 DistilBERT基础无大小写微调SST - 2

本模型是基于DistilBERT的文本分类模型，在SST - 2数据集上进行微调，可用于主题分类任务，在开发集上达到了较高的准确率。

🚀 快速开始

单标签分类示例

import torch
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification

tokenizer = DistilBertTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
with torch.no_grad():
    logits = model(**inputs).logits

predicted_class_id = logits.argmax().item()
model.config.id2label[predicted_class_id]

✨ 主要特性

微调优化：基于DistilBERT - base - uncased进行微调，在SST - 2数据集上达到了91.3的准确率。
适用场景广：可用于主题分类，也可在下游任务中进行微调。

📚 详细文档

模型详情

模型描述：此模型是DistilBERT - base - uncased在SST - 2上的微调检查点，在开发集上的准确率达到91.3（作为对比，Bert bert - base - uncased版本的准确率为92.7）。
开发者：Hugging Face
模型类型：文本分类
语言：英语
许可证：Apache - 2.0
父模型：有关DistilBERT的更多详细信息，建议用户查看此模型卡片。
更多信息资源：
- 模型文档
- DistilBERT论文

使用方式

直接使用

该模型可用于主题分类。可以使用原始模型进行掩码语言建模或下一句预测，但它主要用于在下游任务上进行微调。可在模型中心查找针对你感兴趣的任务进行微调的版本。

误用和超出范围的使用

不应使用该模型故意为人们创造敌对或排斥性的环境。此外，该模型并非用于对人或事件进行事实性或真实的表述，因此使用该模型生成此类内容超出了该模型的能力范围。

风险、限制和偏差

基于一些实验，我们观察到该模型可能会产生针对代表性不足群体的有偏差的预测。

例如，对于像This film was filmed in COUNTRY这样的句子，这个二元分类模型会根据国家的不同对正标签给出截然不同的概率（如果国家是法国，概率为0.89，但如果国家是阿富汗，概率为0.08），而输入中并没有任何内容表明存在如此强烈的语义变化。在这个colab中，Aurélien Géron制作了一个有趣的地图，绘制了每个国家的这些概率。

每个国家的正概率地图