🚀 印尼語RoBERTa基礎情感分類器
印尼語RoBERTa基礎情感分類器是一個基於RoBERTa模型的情感文本分類模型。該模型最初是預訓練的印尼語RoBERTa基礎模型,然後在indonlu
的SmSA
數據集(包含印尼語評論和評價)上進行微調。
訓練後,該模型的評估準確率達到了94.36%,F1宏值達到了92.42%。在基準測試集上,模型的準確率為93.2%,F1宏值為91.02%。
訓練該模型使用了來自Transformers庫的Hugging Face的Trainer
類。訓練期間使用PyTorch作為後端框架,但該模型仍然與其他框架兼容。
✨ 主要特性
- 基於RoBERTa模型,在印尼語情感文本分類任務上表現出色。
- 在
SmSA
數據集上進行微調,適應印尼語評論和評價場景。
- 訓練後在評估和基準測試中都取得了較高的準確率和F1值。
- 訓練使用Hugging Face的
Trainer
類,且兼容多種框架。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
from transformers import pipeline
pretrained_name = "w11wo/indonesian-roberta-base-sentiment-classifier"
nlp = pipeline(
"sentiment-analysis",
model=pretrained_name,
tokenizer=pretrained_name
)
nlp("Jangan sampai saya telpon bos saya ya!")
📚 詳細文檔
模型
屬性 |
詳情 |
模型類型 |
indonesian-roberta-base-sentiment-classifier |
參數數量 |
1.24億 |
架構 |
RoBERTa基礎 |
訓練/驗證數據(文本) |
SmSA |
評估結果
該模型訓練了5個輪次,並在最後加載了最佳模型。
輪次 |
訓練損失 |
驗證損失 |
準確率 |
F1值 |
精確率 |
召回率 |
1 |
0.342600 |
0.213551 |
0.928571 |
0.898539 |
0.909803 |
0.890694 |
2 |
0.190700 |
0.213466 |
0.934127 |
0.901135 |
0.925297 |
0.882757 |
3 |
0.125500 |
0.219539 |
0.942857 |
0.920901 |
0.927511 |
0.915193 |
4 |
0.083600 |
0.235232 |
0.943651 |
0.924227 |
0.926494 |
0.922048 |
5 |
0.059200 |
0.262473 |
0.942063 |
0.920583 |
0.924084 |
0.917351 |
🔧 技術細節
- 訓練使用Hugging Face的
Trainer
類,後端框架為PyTorch,但模型與其他框架兼容。
- 模型基於預訓練的印尼語RoBERTa基礎模型,在
SmSA
數據集上進行微調。
📄 許可證
本項目採用MIT許可證。
⚠️ 重要提示
請考慮來自預訓練的RoBERTa模型和SmSA
數據集的偏差,這些偏差可能會延續到該模型的結果中。
💡 使用建議
在使用該模型時,需注意數據集帶來的偏差對結果的影響。
👨💻 作者
印尼語RoBERTa基礎情感分類器由Wilson Wongso訓練和評估。所有計算和開發均在Google Colaboratory上使用其免費GPU完成。
📖 引用
如果使用該模型,請引用以下內容:
@misc {wilson_wongso_2023,
author = { {Wilson Wongso} },
title = { indonesian-roberta-base-sentiment-classifier (Revision e402e46) },
year = 2023,
url = { https://huggingface.co/w11wo/indonesian-roberta-base-sentiment-classifier },
doi = { 10.57967/hf/0644 },
publisher = { Hugging Face }
}