🚀 Amazon-Beauty-Product-Reviews-distilBERT-base情感分析模型
本模型基于DistilBERT微调,可用于对亚马逊美妆产品评论进行情感分析,能有效处理文本分类任务,在评估集上取得了较好的准确率等指标。
🚀 快速开始
本部分暂未提供快速开始的相关内容,你可以参考后续章节了解模型详情。
✨ 主要特性
- 微调优化:基于
distilbert-base-uncased
在亚马逊美妆评论数据集上进行微调,适配特定领域的情感分析任务。
- 性能良好:在评估集上损失较低,准确率、精确率、召回率和F1值等指标表现出色。
📚 详细文档
🔍 模型详情
模型描述
本模型是 distilbert-base-uncased 在 亚马逊美妆评论数据集 的平衡子集上微调后的版本。
在评估集上取得了以下结果:
- 损失:0.5171
- 准确率:0.7862
- 精确率:0.7876
- 召回率:0.7860
- F1值:0.7867
开发者信息
属性 |
详情 |
开发者 |
Jiali Han |
模型类型 |
文本分类 |
语言 |
英语 |
许可证 |
Apache-2.0 |
父模型 |
有关DistilBERT的更多详细信息,请查看 此模型卡片 |
更多信息资源 |
模型文档;DistilBERT论文 |
💡 使用场景
直接应用
本模型可用于对亚马逊美妆产品评论进行情感分析。
误用和超出范围使用
⚠️ 重要提示
请勿使用此模型故意创建对他人怀有敌意或排斥性的环境。此外,该模型并非用于生成真实反映人物或事件的内容,因此使用该模型生成此类内容超出了其能力范围。
⚠️ 风险、限制和偏差
本模型可能会产生有偏差的预测,尤其会对代表性不足的群体产生影响。
用户应针对特定用例评估模型的风险。
如需进一步评估偏差,可考虑以下数据集:
📈 训练和评估
训练数据
作者使用了 亚马逊美妆评论数据集,该数据集经过平衡处理以解决类别不平衡问题。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:5e-05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:0
- 优化器:使用
OptimizerNames.ADAMW_TORCH
,betas=(0.9, 0.999)
,epsilon=1e-08
,无额外优化器参数
- 学习率调度器类型:线性
- 训练轮数:1
训练结果
如需详细的训练日志,请参考 Tensorboard 页面。
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
精确率 |
召回率 |
F1值 |
0.7283 |
0.0299 |
500 |
0.6867 |
0.7073 |
0.7038 |
0.7071 |
0.7030 |
0.6718 |
0.0598 |
1000 |
0.6067 |
0.7340 |
0.7478 |
0.7340 |
0.7377 |
0.6473 |
0.0898 |
1500 |
0.6154 |
0.7390 |
0.7508 |
0.7390 |
0.7416 |
0.616 |
0.1197 |
2000 |
0.6448 |
0.7423 |
0.7373 |
0.7420 |
0.7377 |
0.6123 |
0.1496 |
2500 |
0.6286 |
0.7241 |
0.7677 |
0.7243 |
0.7284 |
0.5874 |
0.1795 |
3000 |
0.5774 |
0.7516 |
0.7539 |
0.7515 |
0.7523 |
0.5746 |
0.2095 |
3500 |
0.5708 |
0.7564 |
0.7636 |
0.7563 |
0.7582 |
0.5917 |
0.2394 |
4000 |
0.5839 |
0.7596 |
0.7602 |
0.7595 |
0.7598 |
0.5774 |
0.2693 |
4500 |
0.6225 |
0.7526 |
0.7482 |
0.7524 |
0.7492 |
0.594 |
0.2992 |
5000 |
0.5531 |
0.7662 |
0.7694 |
0.7661 |
0.7673 |
0.5591 |
0.3292 |
5500 |
0.5770 |
0.7665 |
0.7645 |
0.7663 |
0.7645 |
0.5548 |
0.3591 |
6000 |
0.5805 |
0.7613 |
0.7579 |
0.7611 |
0.7584 |
0.5742 |
0.3890 |
6500 |
0.5592 |
0.7639 |
0.7665 |
0.7638 |
0.7636 |
0.5374 |
0.4189 |
7000 |
0.5548 |
0.7712 |
0.7776 |
0.7711 |
0.7735 |
0.5488 |
0.4489 |
7500 |
0.5622 |
0.7747 |
0.7747 |
0.7745 |
0.7746 |
0.5557 |
0.4788 |
8000 |
0.5698 |
0.7642 |
0.7822 |
0.7643 |
0.7670 |
0.556 |
0.5087 |
8500 |
0.5380 |
0.7754 |
0.7777 |
0.7753 |
0.7764 |
0.5325 |
0.5386 |
9000 |
0.5791 |
0.7754 |
0.7746 |
0.7751 |
0.7736 |
0.5301 |
0.5686 |
9500 |
0.5569 |
0.7753 |
0.7738 |
0.7751 |
0.7744 |
0.5232 |
0.5985 |
10000 |
0.5391 |
0.7782 |
0.7806 |
0.7780 |
0.7789 |
0.5462 |
0.6284 |
10500 |
0.5499 |
0.7729 |
0.7698 |
0.7726 |
0.7683 |
0.5614 |
0.6583 |
11000 |
0.5243 |
0.7803 |
0.7818 |
0.7801 |
0.7808 |
0.5376 |
0.6883 |
11500 |
0.5406 |
0.7795 |
0.7772 |
0.7794 |
0.7780 |
0.5287 |
0.7182 |
12000 |
0.5227 |
0.7797 |
0.7852 |
0.7796 |
0.7806 |
0.5149 |
0.7481 |
12500 |
0.5423 |
0.7803 |
0.7788 |
0.7801 |
0.7792 |
0.5312 |
0.7780 |
13000 |
0.5338 |
0.7771 |
0.7860 |
0.7771 |
0.7781 |
0.5204 |
0.8079 |
13500 |
0.5183 |
0.7843 |
0.7857 |
0.7841 |
0.7849 |
0.5412 |
0.8379 |
14000 |
0.5192 |
0.7844 |
0.7893 |
0.7843 |
0.7860 |
0.515 |
0.8678 |
14500 |
0.5135 |
0.7845 |
0.7858 |
0.7843 |
0.7850 |
0.5033 |
0.8977 |
15000 |
0.5254 |
0.7862 |
0.7882 |
0.7860 |
0.7870 |
0.5023 |
0.9276 |
15500 |
0.5251 |
0.7863 |
0.7853 |
0.7861 |
0.7856 |
0.5042 |
0.9576 |
16000 |
0.5215 |
0.7865 |
0.7864 |
0.7864 |
0.7864 |
0.5237 |
0.9875 |
16500 |
0.5171 |
0.7862 |
0.7876 |
0.7860 |
0.7867 |
评估结果
微调后的DistilBERT模型在以下数据集划分上进行了评估:
评估是在一个三类情感分类任务上进行的。以下是详细结果:
分类报告
标签 |
精确率 |
召回率 |
F1值 |
支持样本数 |
0 |
0.78 |
0.78 |
0.78 |
11163 |
1 |
0.69 |
0.70 |
0.69 |
11099 |
2 |
0.89 |
0.87 |
0.88 |
11155 |
准确率 |
|
|
0.78 |
33417 |
宏平均 |
0.79 |
0.78 |
0.78 |
33417 |
加权平均 |
0.79 |
0.78 |
0.79 |
33417 |
混淆矩阵
|
0 |
1 |
2 |
0 |
8672 |
2331 |
160 |
1 |
2292 |
7793 |
1014 |
2 |
169 |
1237 |
9749 |
框架版本
- Transformers 4.50.3
- Pytorch 2.6.0+cu124
- Tokenizers 0.21.1
📄 许可证
本模型使用的许可证为Apache-2.0。