Indobertweet Base Indonesian Sentiment Analysis
模型简介
该模型专门针对印尼语社交媒体文本进行情感分类,可识别负面、正面和中性三种情感倾向,适用于政治、社会等多领域内容分析
模型特点
政治敏感内容识别
特别优化对政治敏感内容的情感判断能力
多主题覆盖
训练数据涵盖政治、灾难、教育等多领域社交媒体讨论
超参数优化
使用Optuna进行超参数优化,提升模型性能
模型能力
印尼语文本情感分类
社交媒体内容分析
政治敏感内容检测
使用案例
社交媒体监测
政治言论情感分析
分析印尼社交媒体中对政治事件的公众情绪倾向
可识别活动人士相关内容的负面情绪(示例1得分0.6969)
舆情分析
就业话题情绪追踪
监测就业相关讨论的情感变化
准确识别就业困难表达的负面情绪(示例5负面得分0.9852)
🚀 印尼语情感分析模型卡片
本模型用于对印尼语内容进行情感分析,可将情感分为消极、积极和中性三类。它基于多样化的社交媒体数据集进行训练,涵盖政治、灾难和教育等多个领域,能为相关领域的情感分析提供有力支持。
🚀 快速开始
此部分暂未提供具体的快速开始内容。
✨ 主要特性
- 针对性微调:该模型是 IndoBertweet-base-uncased 的微调版本,专门用于印尼语情感分析。
- 多类别分类:能够将情感准确分类为消极、积极和中性三种类型。
- 数据多样性:在包含推特及其他社交媒体平台反应的多样化数据集上进行训练,覆盖政治、灾难、教育等多个主题。
- 参数优化:使用 Optuna 进行超参数调优,通过准确性、F1 分数、精确率和召回率等指标进行评估。
💻 使用示例
基础用法
以下是一些示例文本及其情感分类结果:
{
"widget": [
{
"text": "Gapapa kalian gak tahu band Indo ini. Tapi jangan becanda. Karena mereka berani menyanyikan dengan lantang bagaimana aktivis ditikam, diracun, dikursilitrikkan, dan dibunuh di udara. Orang-orang yang berkorban nyawa supaya kalian menikmati hari ini sambil ngetwit tanpa khawatir",
"example_title": "Example 1",
"output": [
{
"label": "Negative",
"score": 0.2964
},
{
"label": "Neutral",
"score": 0.067
},
{
"label": "Positive",
"score": 0.6969
}
]
},
{
"text": "Selama ada kelompok yg ingin jd mesias, selama itu jg govt punya justifikasi but bikin banyak aturan = celah korup/power abuse. Keadilan adalah deregulasi.",
"example_title": "Example 2",
"output": [
{
"label": "Negative",
"score": 0.971
},
{
"label": "Neutral",
"score": 0.0165
},
{
"label": "Positive",
"score": 0.126
}
]
},
{
"text": "saat pendukungmu oke😹 gas ✌🏽oke😹 gas ✌🏽tapi kamu malah ketawa 🤣 itu ga respek 😠banget wok jangan lupa makan siang 😁geratisnya wok😋😹✌🏽",
"example_title": "Example 3",
"output": [
{
"label": "Negative",
"score": 0.6457
},
{
"label": "Neutral",
"score": 0.048
},
{
"label": "Positive",
"score": 0.3063
}
]
},
{
"text": "Infoin loker wfh/freelance untuk mahasiswa dong, pengin bangget buat tambahan uang jajan di kos",
"example_title": "Example 4",
"output": [
{
"label": "Negative",
"score": 0.0544
},
{
"label": "Neutral",
"score": 0.6973
},
{
"label": "Positive",
"score": 0.2482
}
]
},
{
"text": "Cari kerja sekarang tuh susah. Anaknya Presiden aja mesti dicariin kerjaan sama bapaknya",
"example_title": "Example 5",
"output": [
{
"label": "Negative",
"score": 0.9852
},
{
"label": "Neutral",
"score": 0.0116
},
{
"label": "Positive",
"score": 0.0032
}
]
},
{
"text": "Komisi Penyiaran Indonesia (KPI) meminta agar tayangan televisi menampilkan citra positif Polri secara edukatif dan akurat. Hal ini disampaikan ketua KPI Pusat Ubaidillah dalam sebuah diskusi panel",
"example_title": "Example 6",
"output": [
{
"label": "Neutral",
"score": 0.9932
},
{
"label": "Positive",
"score": 0.0063
},
{
"label": "Negative",
"score": 0.0005
}
]
},
{
"text": "Jgnkan tweet becandaan.. kadang tweet normal yg gue baca 'oh menarik' trs gue like/retweet, trs gue tinggal tidur, BESOKNYA ITU TWEET DIRUJAK. Gue jadi mikir, ini emang gue yang merasa semua hal menarik dan semua org bisa aja bener.. ATAU.. SEMUA ORANG jadi sensitif",
"example_title": "Example 7",
"output": [
{
"label": "Negative",
"score": 0.5531
},
{
"label": "Neutral",
"score": 0.4426
},
{
"label": "Positive",
"score": 0.0043
}
]
}
],
"library_name": "transformers",
"license": "mit",
"language": [
"id"
]
}
🔧 技术细节
模型训练
- 超参数优化:训练过程使用 Optuna 进行超参数优化。
- 训练设置:模型最多训练 10 个 epoch,批次大小为 16,使用优化后的学习率和权重衰减。
- 评估策略:每 100 步进行一次评估,根据准确性保存最佳模型。
- 早停机制:应用早停策略,耐心值为 3,以防止过拟合。
评估结果
轮次 | 训练损失 | 验证损失 | 准确率 | F1 分数 | 精确率 | 召回率 |
---|---|---|---|---|---|---|
100 | 1.052800 | 0.995017 | 0.482368 | 0.348356 | 0.580544 | 0.482368 |
200 | 0.893700 | 0.807756 | 0.730479 | 0.703134 | 0.756189 | 0.730479 |
300 | 0.583400 | 0.476157 | 0.850126 | 0.847161 | 0.849467 | 0.850126 |
400 | 0.413600 | 0.385942 | 0.867758 | 0.867614 | 0.870417 | 0.867758 |
500 | 0.345700 | 0.362191 | 0.885390 | 0.883918 | 0.886880 | 0.885390 |
600 | 0.245400 | 0.330090 | 0.897985 | 0.897466 | 0.897541 | 0.897985 |
700 | 0.485000 | 0.308807 | 0.899244 | 0.898736 | 0.898761 | 0.899244 |
800 | 0.363700 | 0.328786 | 0.896725 | 0.895167 | 0.898695 | 0.896725 |
900 | 0.369800 | 0.329429 | 0.892947 | 0.893138 | 0.898281 | 0.892947 |
1000 | 0.273300 | 0.305412 | 0.910579 | 0.910355 | 0.910519 | 0.910579 |
1100 | 0.272800 | 0.388976 | 0.891688 | 0.893113 | 0.896606 | 0.891688 |
1200 | 0.259900 | 0.305771 | 0.913098 | 0.913123 | 0.913669 | 0.913098 |
1300 | 0.293500 | 0.317654 | 0.908060 | 0.908654 | 0.909939 | 0.908060 |
1400 | 0.255200 | 0.331161 | 0.915617 | 0.915708 | 0.916149 | 0.915617 |
1500 | 0.139800 | 0.352545 | 0.909320 | 0.909768 | 0.911014 | 0.909320 |
1600 | 0.194400 | 0.372482 | 0.904282 | 0.904296 | 0.906285 | 0.904282 |
1700 | 0.134200 | 0.340576 | 0.906801 | 0.907110 | 0.907780 | 0.906801 |
📄 许可证
本模型使用 MIT 许可证。
📖 引用信息
@misc{Ardiyanto_Mikhael_2024,
author = {Mikhael Ardiyanto},
title = {Aardiiiiy/indobertweet-base-Indonesian-sentiment-analysis},
year = {2024},
URL = {https://huggingface.co/Aardiiiiy/indobertweet-base-Indonesian-sentiment-analysis},
publisher = {Hugging Face}
}
⚠️ 重要提示
- 数据偏差:该模型基于特定数据进行训练,这可能导致情感分类过程中出现偏差。模型可能继承训练数据中的社会文化偏差,对于数据中未涵盖的最新事件,其准确性可能较低。
- 情感复杂性:将情感分为三类的局限性可能无法完全捕捉情感的复杂性,特别是在特定语境下。因此,在使用此模型时,务必考虑并处理这些偏差。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型,准确率91.3%
文本分类 英语
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基于XLM-RoBERTa的多语言检测模型,支持20种语言的文本分类
文本分类
Transformers 支持多种语言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
该模型通过动态生成数据集来改进在线仇恨检测,专注于从最差案例中学习以提高检测效果。
文本分类
Transformers 英语

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基于bert-base-multilingual-uncased微调的多语言情感分析模型,支持6种语言的商品评论情感分析
文本分类 支持多种语言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基于DistilRoBERTa-base微调的英文文本情感分类模型,可预测埃克曼六种基本情绪及中性类别。
文本分类
Transformers 英语

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基于RoBERTuito的西班牙语推文情感分析模型,支持POS(积极)/NEG(消极)/NEU(中性)三类情感分类
文本分类 西班牙语
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基于金融通讯文本预训练的BERT模型,专注于金融自然语言处理领域。finbert-tone是其微调版本,用于金融情感分析任务。
文本分类
Transformers 英语

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基于RoBERTa-base的多标签情感分类模型,在go_emotions数据集上训练,支持28种情感标签识别。
文本分类
Transformers 英语

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一个基于XLM-T模型微调的多语言情感分析模型,支持19种语言,专门针对社交媒体文本的情感预测。
文本分类
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基于MultiNLI、Fever-NLI和ANLI数据集训练的DeBERTa-v3模型,擅长零样本分类和自然语言推理任务
文本分类
Transformers 英语

D
MoritzLaurer
613.93k
204
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98