🚀 印尼语RoBERTa基础情感分类器
印尼语RoBERTa基础情感分类器是一个基于RoBERTa模型的情感文本分类模型。该模型最初是预训练的印尼语RoBERTa基础模型,然后在indonlu
的SmSA
数据集(包含印尼语评论和评价)上进行微调。
训练后,该模型的评估准确率达到了94.36%,F1宏值达到了92.42%。在基准测试集上,模型的准确率为93.2%,F1宏值为91.02%。
训练该模型使用了来自Transformers库的Hugging Face的Trainer
类。训练期间使用PyTorch作为后端框架,但该模型仍然与其他框架兼容。
✨ 主要特性
- 基于RoBERTa模型,在印尼语情感文本分类任务上表现出色。
- 在
SmSA
数据集上进行微调,适应印尼语评论和评价场景。
- 训练后在评估和基准测试中都取得了较高的准确率和F1值。
- 训练使用Hugging Face的
Trainer
类,且兼容多种框架。
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
from transformers import pipeline
pretrained_name = "w11wo/indonesian-roberta-base-sentiment-classifier"
nlp = pipeline(
"sentiment-analysis",
model=pretrained_name,
tokenizer=pretrained_name
)
nlp("Jangan sampai saya telpon bos saya ya!")
📚 详细文档
模型
属性 |
详情 |
模型类型 |
indonesian-roberta-base-sentiment-classifier |
参数数量 |
1.24亿 |
架构 |
RoBERTa基础 |
训练/验证数据(文本) |
SmSA |
评估结果
该模型训练了5个轮次,并在最后加载了最佳模型。
轮次 |
训练损失 |
验证损失 |
准确率 |
F1值 |
精确率 |
召回率 |
1 |
0.342600 |
0.213551 |
0.928571 |
0.898539 |
0.909803 |
0.890694 |
2 |
0.190700 |
0.213466 |
0.934127 |
0.901135 |
0.925297 |
0.882757 |
3 |
0.125500 |
0.219539 |
0.942857 |
0.920901 |
0.927511 |
0.915193 |
4 |
0.083600 |
0.235232 |
0.943651 |
0.924227 |
0.926494 |
0.922048 |
5 |
0.059200 |
0.262473 |
0.942063 |
0.920583 |
0.924084 |
0.917351 |
🔧 技术细节
- 训练使用Hugging Face的
Trainer
类,后端框架为PyTorch,但模型与其他框架兼容。
- 模型基于预训练的印尼语RoBERTa基础模型,在
SmSA
数据集上进行微调。
📄 许可证
本项目采用MIT许可证。
⚠️ 重要提示
请考虑来自预训练的RoBERTa模型和SmSA
数据集的偏差,这些偏差可能会延续到该模型的结果中。
💡 使用建议
在使用该模型时,需注意数据集带来的偏差对结果的影响。
👨💻 作者
印尼语RoBERTa基础情感分类器由Wilson Wongso训练和评估。所有计算和开发均在Google Colaboratory上使用其免费GPU完成。
📖 引用
如果使用该模型,请引用以下内容:
@misc {wilson_wongso_2023,
author = { {Wilson Wongso} },
title = { indonesian-roberta-base-sentiment-classifier (Revision e402e46) },
year = 2023,
url = { https://huggingface.co/w11wo/indonesian-roberta-base-sentiment-classifier },
doi = { 10.57967/hf/0644 },
publisher = { Hugging Face }
}