🚀 roberta-base_stress_classification
本模型是基於100000名員工在Glassdoor數據集上的評論,對 roberta-base 進行微調後的版本。它能夠對文本進行壓力分類,判斷文本所描述的情境是否會讓人產生壓力,在實際應用中具有較高的準確性和實用性。
🚀 快速開始
本模型是 roberta-base 在Glassdoor數據集上的微調版本,該數據集基於100000名員工的評論。它在評估集上取得了以下成績:
- 損失率:0.1800
- 準確率:0.9647
- F1值:0.9647
- 精確率:0.9647
- 召回率:0.9647
✨ 主要特性
- 多指標評估:使用準確率、F1值、精確率和召回率等多個指標進行評估,全面衡量模型性能。
- 數據分類明確:訓練數據清晰地分為“無壓力”和“有壓力”兩類。
- 良好的性能表現:在評估集和訓練過程中都展現出了較高的準確率和F1值。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
model = AutoModelForSequenceClassification.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer, device=0)
text = "They also caused so much stress because some leaders valued optics over output."
pipe(text)
[{'label': 'Stressed', 'score': 0.9959163069725037}]
📚 詳細文檔
訓練數據
訓練數據分類如下:
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:5e - 05
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:500
- 訓練輪數:5
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
準確率 |
F1值 |
精確率 |
召回率 |
0.704 |
1.0 |
8000 |
0.6933 |
0.5 |
0.3333 |
0.25 |
0.5 |
0.6926 |
2.0 |
16000 |
0.6980 |
0.5 |
0.3333 |
0.25 |
0.5 |
0.0099 |
3.0 |
24000 |
0.1800 |
0.9647 |
0.9647 |
0.9647 |
0.9647 |
0.2727 |
4.0 |
32000 |
0.2243 |
0.9526 |
0.9526 |
0.9527 |
0.9526 |
0.0618 |
5.0 |
40000 |
0.2128 |
0.9536 |
0.9536 |
0.9546 |
0.9536 |
模型性能
|
精確率 |
召回率 |
F1值 |
樣本數 |
無壓力 |
0.96 |
0.97 |
0.97 |
10000 |
有壓力 |
0.97 |
0.96 |
0.97 |
10000 |
|
|
|
|
|
準確率 |
|
|
0.97 |
20000 |
宏平均 |
0.97 |
0.97 |
0.97 |
20000 |
加權平均 |
0.97 |
0.97 |
0.97 |
20000 |
框架版本
- Transformers 4.32.1
- Pytorch 2.1.0+cu121
- Datasets 2.12.0
- Tokenizers 0.13.2
🔧 技術細節
本模型基於RoBERTa-base進行微調,在Glassdoor數據集上進行訓練。通過調整一系列超參數,如學習率、批次大小等,使得模型在壓力分類任務上取得了較好的效果。在訓練過程中,使用了Adam優化器和線性學習率調度器,並設置了熱身步數來穩定訓練過程。
📄 許可證
本項目採用MIT許可證。