🚀 DeBERTa-v3-small-ft-news-sentiment-analisys
该模型是基于microsoft/deberta-v3-small在特定数据集上微调得到的模型,可用于金融新闻情感分析,在评估集上表现出色。
🚀 快速开始
本模型是 microsoft/deberta-v3-small 在特定数据集上的微调版本。它在评估集上取得了以下结果:
指标 |
值 |
F1 |
0.9940 |
准确率 |
0.9940 |
精确率 |
0.9940 |
召回率 |
0.9940 |
损失 |
0.0233 |
✨ 主要特性
DeBERTa 通过解耦注意力和增强掩码解码器改进了 BERT 和 RoBERTa 模型。在 DeBERTa V3 中,使用 ELECTRA 风格的预训练和梯度解耦嵌入共享进一步提高了效率。与 DeBERTa 相比,V3 版本显著提升了下游任务的模型性能。
DeBERTa V3 小模型有六层,隐藏层大小为 768,有 44M 骨干参数,词汇表包含 128K 个标记,在嵌入层引入了 98M 参数。该模型使用 160GB 数据进行训练,与 DeBERTa V2 相同。
更多实现细节和更新请查看 官方仓库。
📦 安装指南
如果你还未安装相关依赖,可以使用以下命令进行安装:
pip install transformers sentencepiece
💻 使用示例
基础用法
from transformers import pipeline
task = "text-classification"
model_id = "mrm8488/deberta-v3-ft-financial-news-sentiment-analysis"
classifier = pipeline(task, model_id)
text = "Tesla cars are not as good as expected"
result = classifier(text)
print(result)
📚 详细文档
训练和评估数据
使用的是金融新闻句子的极性情感数据集,该数据集包含 4840 条来自英语金融新闻的句子,并按情感分类。数据集由 5 - 8 位标注者的一致率划分。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e-05
- 训练批次大小:64
- 评估批次大小:64
- 随机种子:42
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 训练轮数:5
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精确率 |
召回率 |
准确率 |
F1 分数 |
无记录 |
1.0 |
214 |
0.1865 |
0.9323 |
0.9323 |
0.9323 |
0.9323 |
无记录 |
2.0 |
428 |
0.0742 |
0.9771 |
0.9771 |
0.9771 |
0.9771 |
0.2737 |
3.0 |
642 |
0.0479 |
0.9855 |
0.9855 |
0.9855 |
0.9855 |
0.2737 |
4.0 |
856 |
0.0284 |
0.9923 |
0.9923 |
0.9923 |
0.9923 |
0.0586 |
5.0 |
1070 |
0.0233 |
0.9940 |
0.9940 |
0.9940 |
0.9940 |
框架版本
- Transformers 4.35.2
- Pytorch 2.1.0+cu121
- Datasets 2.16.1
- Tokenizers 0.15.0
🔧 技术细节
DeBERTa 通过解耦注意力和增强掩码解码器改进了 BERT 和 RoBERTa 模型。在 DeBERTa V3 中,使用 ELECTRA 风格的预训练和梯度解耦嵌入共享进一步提高了效率。与 DeBERTa 相比,V3 版本显著提升了下游任务的模型性能。你可以从 论文 中找到关于新模型的更多技术细节。
📄 许可证
本项目采用 MIT 许可证。
📖 引用
@misc {manuel_romero_2024,
author = { {Manuel Romero} },
title = { deberta-v3-ft-financial-news-sentiment-analysis (Revision 7430ace) },
year = 2024,
url = { https://huggingface.co/mrm8488/deberta-v3-ft-financial-news-sentiment-analysis },
doi = { 10.57967/hf/1666 },
publisher = { Hugging Face }
}