🚀 DistilBERT基礎無大小寫微調SST - 2
本模型是基於DistilBERT的文本分類模型,在SST - 2數據集上進行微調,可用於主題分類任務,在開發集上達到了較高的準確率。
🚀 快速開始
單標籤分類示例
import torch
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
tokenizer = DistilBertTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_class_id = logits.argmax().item()
model.config.id2label[predicted_class_id]
✨ 主要特性
📚 詳細文檔
模型詳情
- 模型描述:此模型是DistilBERT - base - uncased在SST - 2上的微調檢查點,在開發集上的準確率達到91.3(作為對比,Bert bert - base - uncased版本的準確率為92.7)。
- 開發者:Hugging Face
- 模型類型:文本分類
- 語言:英語
- 許可證:Apache - 2.0
- 父模型:有關DistilBERT的更多詳細信息,建議用戶查看此模型卡片。
- 更多信息資源:
使用方式
直接使用
該模型可用於主題分類。可以使用原始模型進行掩碼語言建模或下一句預測,但它主要用於在下游任務上進行微調。可在模型中心查找針對你感興趣的任務進行微調的版本。
誤用和超出範圍的使用
不應使用該模型故意為人們創造敵對或排斥性的環境。此外,該模型並非用於對人或事件進行事實性或真實的表述,因此使用該模型生成此類內容超出了該模型的能力範圍。
風險、限制和偏差
基於一些實驗,我們觀察到該模型可能會產生針對代表性不足群體的有偏差的預測。
例如,對於像This film was filmed in COUNTRY
這樣的句子,這個二元分類模型會根據國家的不同對正標籤給出截然不同的概率(如果國家是法國,概率為0.89,但如果國家是阿富汗,概率為0.08),而輸入中並沒有任何內容表明存在如此強烈的語義變化。在這個colab中,Aurélien Géron製作了一個有趣的地圖,繪製了每個國家的這些概率。

我們強烈建議用戶在其用例中徹底探究這些方面,以評估該模型的風險。我們建議將以下偏差評估數據集作為起點:WinoBias、WinoGender、Stereoset。
訓練
訓練數據
作者使用以下斯坦福情感樹庫(sst2)語料庫對模型進行訓練。
訓練過程
微調超參數
- 學習率 = 1e - 5
- 批量大小 = 32
- 預熱步數 = 600
- 最大序列長度 = 128
- 訓練輪數 = 3.0
📄 許可證
本項目採用Apache - 2.0許可證。