🚀 DeBERTa-v3-small-ft-news-sentiment-analisys
該模型是基於microsoft/deberta-v3-small在特定數據集上微調得到的模型,可用於金融新聞情感分析,在評估集上表現出色。
🚀 快速開始
本模型是 microsoft/deberta-v3-small 在特定數據集上的微調版本。它在評估集上取得了以下結果:
指標 |
值 |
F1 |
0.9940 |
準確率 |
0.9940 |
精確率 |
0.9940 |
召回率 |
0.9940 |
損失 |
0.0233 |
✨ 主要特性
DeBERTa 通過解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。在 DeBERTa V3 中,使用 ELECTRA 風格的預訓練和梯度解耦嵌入共享進一步提高了效率。與 DeBERTa 相比,V3 版本顯著提升了下游任務的模型性能。
DeBERTa V3 小模型有六層,隱藏層大小為 768,有 44M 骨幹參數,詞彙表包含 128K 個標記,在嵌入層引入了 98M 參數。該模型使用 160GB 數據進行訓練,與 DeBERTa V2 相同。
更多實現細節和更新請查看 官方倉庫。
📦 安裝指南
如果你還未安裝相關依賴,可以使用以下命令進行安裝:
pip install transformers sentencepiece
💻 使用示例
基礎用法
from transformers import pipeline
task = "text-classification"
model_id = "mrm8488/deberta-v3-ft-financial-news-sentiment-analysis"
classifier = pipeline(task, model_id)
text = "Tesla cars are not as good as expected"
result = classifier(text)
print(result)
📚 詳細文檔
訓練和評估數據
使用的是金融新聞句子的極性情感數據集,該數據集包含 4840 條來自英語金融新聞的句子,並按情感分類。數據集由 5 - 8 位標註者的一致率劃分。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e-05
- 訓練批次大小:64
- 評估批次大小:64
- 隨機種子:42
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 訓練輪數:5
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
準確率 |
F1 分數 |
無記錄 |
1.0 |
214 |
0.1865 |
0.9323 |
0.9323 |
0.9323 |
0.9323 |
無記錄 |
2.0 |
428 |
0.0742 |
0.9771 |
0.9771 |
0.9771 |
0.9771 |
0.2737 |
3.0 |
642 |
0.0479 |
0.9855 |
0.9855 |
0.9855 |
0.9855 |
0.2737 |
4.0 |
856 |
0.0284 |
0.9923 |
0.9923 |
0.9923 |
0.9923 |
0.0586 |
5.0 |
1070 |
0.0233 |
0.9940 |
0.9940 |
0.9940 |
0.9940 |
框架版本
- Transformers 4.35.2
- Pytorch 2.1.0+cu121
- Datasets 2.16.1
- Tokenizers 0.15.0
🔧 技術細節
DeBERTa 通過解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。在 DeBERTa V3 中,使用 ELECTRA 風格的預訓練和梯度解耦嵌入共享進一步提高了效率。與 DeBERTa 相比,V3 版本顯著提升了下游任務的模型性能。你可以從 論文 中找到關於新模型的更多技術細節。
📄 許可證
本項目採用 MIT 許可證。
📖 引用
@misc {manuel_romero_2024,
author = { {Manuel Romero} },
title = { deberta-v3-ft-financial-news-sentiment-analysis (Revision 7430ace) },
year = 2024,
url = { https://huggingface.co/mrm8488/deberta-v3-ft-financial-news-sentiment-analysis },
doi = { 10.57967/hf/1666 },
publisher = { Hugging Face }
}