distilbert-base-uncased-finetuned-sst-2-english開源文本分類模型

首頁

Distilbert Base Uncased Finetuned Sst 2 English

由distilbert開發

基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型，準確率91.3%

文本分類英語開源協議:Apache-2.0 #情感分析 #文本分類 #英語NLP

下載量 5.2M

發布時間 : 3/2/2022

模型概述

輕量級BERT變體，專為英語文本情感分析任務優化

模型特點

高效輕量

相比原始BERT體積減小40%但保留97%性能

快速推理

蒸餾架構帶來60%的速度提升

領域適配

針對電影評論情感分析專項優化

模型能力

文本分類

情感分析

句子級特徵提取

使用案例

內容分析

影評情感分析

判斷電影評論的情感傾向（正面/負面）

開發集準確率91.3%

社交媒體監測

分析用戶發文的情緒傾向

🚀 DistilBERT基礎無大小寫微調SST - 2

本模型是基於DistilBERT的文本分類模型，在SST - 2數據集上進行微調，可用於主題分類任務，在開發集上達到了較高的準確率。

🚀 快速開始

單標籤分類示例

import torch
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification

tokenizer = DistilBertTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
with torch.no_grad():
    logits = model(**inputs).logits

predicted_class_id = logits.argmax().item()
model.config.id2label[predicted_class_id]

✨ 主要特性

微調優化：基於DistilBERT - base - uncased進行微調，在SST - 2數據集上達到了91.3的準確率。
適用場景廣：可用於主題分類，也可在下游任務中進行微調。

📚 詳細文檔

模型詳情

模型描述：此模型是DistilBERT - base - uncased在SST - 2上的微調檢查點，在開發集上的準確率達到91.3（作為對比，Bert bert - base - uncased版本的準確率為92.7）。
開發者：Hugging Face
模型類型：文本分類
語言：英語
許可證：Apache - 2.0
父模型：有關DistilBERT的更多詳細信息，建議用戶查看此模型卡片。
更多信息資源：
- 模型文檔
- DistilBERT論文

使用方式

直接使用

該模型可用於主題分類。可以使用原始模型進行掩碼語言建模或下一句預測，但它主要用於在下游任務上進行微調。可在模型中心查找針對你感興趣的任務進行微調的版本。

誤用和超出範圍的使用

不應使用該模型故意為人們創造敵對或排斥性的環境。此外，該模型並非用於對人或事件進行事實性或真實的表述，因此使用該模型生成此類內容超出了該模型的能力範圍。

風險、限制和偏差

基於一些實驗，我們觀察到該模型可能會產生針對代表性不足群體的有偏差的預測。

例如，對於像This film was filmed in COUNTRY這樣的句子，這個二元分類模型會根據國家的不同對正標籤給出截然不同的概率（如果國家是法國，概率為0.89，但如果國家是阿富汗，概率為0.08），而輸入中並沒有任何內容表明存在如此強烈的語義變化。在這個colab中，Aurélien Géron製作了一個有趣的地圖，繪製了每個國家的這些概率。

每個國家的正概率地圖